DeepSeek AI 文風與 ChatGPT 相似度高達 74%——最新研究
一項新研究發現,DeepSeek 生成的文本中有高達 74.2% 的內容在寫作風格上與 OpenAI 的 ChatGPT 輸出驚人地相似。這一發現暗示 DeepSeek 可能在訓練過程中使用了 ChatGPT 的輸出內容。
AI 檢測公司 Copyleaks 在該研究計劃發佈到 Cornell 大學 arXiv.org 知識庫之前,獨家提供了這項研究。該公司表示,這項前瞻性研究可能對未來的知識產權、AI 監管和 AI 發展產生重大影響。
DeepSeek 文本與 ChatGPT 風格相似——與其他模型不同
Copyleaks 的研究使用篩選技術和算法分類器來檢測各種語言模型(包括 OpenAI、Claude、Gemini、Llama 和 DeepSeek)產生的文本的風格特徵。分類器採用一致投票方法來減少假陽性並確保高精度。
有趣的是,雖然大多數模型生成的文本都能輕易地被識別出各自獨特的特徵,但 DeepSeek 的大部分輸出都被歸類爲 OpenAI 模型生成的內容。
Copyleaks 數據科學主管 Shai Nisan 在郵件交流中表示,這項研究類似於筆跡專家通過比較手寫文本與其他作者的樣本來識別手稿作者。在這個案例中,結果令人驚訝且意義重大。
"我們的研究採用了'一致陪審團'方法,發現 DeepSeek 和 OpenAI 模型之間存在顯著的風格相似性,這種相似性在其他檢測的模型中並未發現,"他解釋道。
Nisan 補充說,這引發了關於 DeepSeek 訓練方式的重要問題,以及它是否未經授權就利用了 OpenAI 的輸出。
"雖然這種相似性並不能確定地證明 DeepSeek 是衍生品,但確實引發了對其開發過程的質疑。我們的研究特別關注寫作風格;在這個領域,與 OpenAI 的相似性非常顯著。考慮到 OpenAI 的市場領先地位,我們的發現表明有必要進一步調查 DeepSeek 的架構、訓練數據和開發過程,"Nisan 寫道。
ChatGPT 的知識產權是否被侵犯?
如果 DeepSeek 的訓練數據未經適當授權就使用了 OpenAI 生成的文本,這對知識產權的影響將是深遠的。這種情況可能違反了 OpenAI 的服務條款,甚至可能侵犯其知識產權。AI 訓練數據普遍缺乏透明度更加劇了這些問題,凸顯了需要建立強制要求披露訓練數據集的監管框架。
Nisan 指出這可能對 AI 行業產生深遠影響。
"研究強烈表明,在未來的 AI 發展和監管中,透明度和強有力的知識產權保護至關重要。監管機構可能會考慮要求公司詳細披露用於訓練其模型的數據集和模型輸出信息,"他補充道。
鑑於 DeepSeek 被認爲的創新性及其技術引發的其他問題,這個問題變得更加令人擔憂。例如,據報道,在 DeepSeek 於 1 月份宣佈其"新穎的"訓練和快速推理解決方案與其他生成式 AI 模型相比只需要少量昂貴的 Nvidia AI 處理器後,Nvidia 的市值出現顯著損失。
如果有證據表明 DeepSeek 的創新是基於未經授權使用 OpenAI 的輸出,其財務和法律後果可能會很嚴重。
ChatGPT 自身的倫理和法律挑戰
雖然 OpenAI 本身因未經明確許可就訓練大量網絡內容而受到批評,但 DeepSeek 可能模仿了 OpenAI 的風格這一可能性引入了新的複雜性。這表明當前知識產權框架中可能存在漏洞——AI 模型可以在沒有法律追究的情況下相互"學習"。
從法律角度來看,由於缺乏先例,執法變得困難。雖然 AI 模型的風格特徵識別可以作爲識別未經授權模型使用的有力工具,但這並不是法律訴訟的"確鑿證據"。
然而,這些發現可能會推動制定更明確的知識產權和 AI 訓練開發監管標準的努力。
DeepSeek 和 ChatGPT 的相似性可能源於數據
對 Copyleaks 研究結果的一個反駁是,AI 模型可能會隨着時間的推移在風格上趨同,特別是如果它們在重疊的數據集上進行訓練。然而,該研究的一致性集成方法專門設計用於檢測模型之間細微的風格差異。
這表明 DeepSeek 和 OpenAI 之間的相似性不僅僅是數據集重疊的副產品,而可能表明存在更深層次的結構或訓練相似性。
"即使大語言模型從重疊的數據集中獲取數據,AI 特徵識別仍然至關重要。架構、微調方法和生成技術等要素的巨大差異性確保了每個大語言模型都會形成獨特的寫作風格,"Nisan 總結道。
也許時間和 AI 檢測會給出答案
隨着 AI 繼續滲透到現代生活的幾乎每個方面,對明確的知識產權法規和道德標準的需求變得更加必要和重要。DeepSeek 是否最終被證實未經授權就利用了 OpenAI 的輸出仍有待觀察。
然而,這類研究提出的問題可能會持續存在,並可能影響 AI 發展和監管的未來——影響 DeepSeek、ChatGPT 和該領域的所有其他參與者。在發稿時,DeepSeek 尚未迴應置評請求。