DeepSeek掀“AI冷戰”?科技頂流播客5小時解讀,30條觀點一文速通

智東西編譯 陳駿達編輯 Panken

智東西2月13日報道,春節期間,DeepSeek一躍成爲全球科技界的頂流,從媒體頭條到巨頭財報都有其身影。AI界聲量最大的播客節目之一Lex Fridman Podcast也發佈了一期長達5小時的深度播客,花費大量篇幅討論了DeepSeek對全球AI發展趨勢的影響及其技術優勢。

節目嘉賓分別爲半導體行業諮詢公司SemiAnalysis創始人Dylan Patel與艾倫人工智能研究院研究科學家Nathan Lambert。

Lambert將DeepSeek在強化學習上的突破稱爲“DeepSeek時刻”。針對OpenAI對DeepSeek抄襲的指控,Lambert特別強調DeepSeek-R1不太可能竊取了OpenAI o1的推理鏈數據,而是通過基於強化學習的“試錯”型學習模式,讓模型自然涌現出了推理能力。

兩位嘉賓還詳細拆解了DeepSeek的技術優勢。DeepSeek創新的MLA機制與初代注意力機制相比,內存使用降低了80%-90%。DeepSeek還通過對MoE架構路由機制的創新,提升了專家模型的使用效率,實現降本增效。

參與對談的三人都對DeepSeek的開源模式深表贊同,Lambert稱其爲“真正的開源”,而Fridman則誇讚其技術報告詳盡,具備較好的可操作性,是開源界的一股積極力量。本地運行開源模型還能更好地保護用戶隱私數據。

計算資源方面,Patel認爲DeepSeek在全球名列前茅,僅次於OpenAI、Anthropic、Meta等少數幾家公司,可能擁有50000張左右GPU。這一數字雖然與國際巨頭動輒10萬卡量級的儲備有一定差距,但巨頭們還需要將這些算力分配給其他業務。

因完整節目過長,智東西特別整理出訪談中幾位嘉賓關於DeepSeek值得關注的五大觀點,供大家參考:

一、DeepSeek的貢獻:最開放的前沿模型之一,推動AI知識普及

1、DeepSeek-R1上線後立即開源,並特別採⽤了寬鬆的MIT許可證,沒有對商用和具體用例進行限制,這也意味着其他開發者可以使用這款模型輸出合成數據,訓練高質量模型。

2、雖然Llama也開源了權重,並附帶技術報告,但DeepSeek的技術報告可操作性更強,也披露了更多的訓練細節,還包括開發過程中遇到的困難,可能是⽬前最開放的前沿模型之⼀。

3、DeepSeek團隊推動了AI知識的普及,他們的論文詳細披露技術細節,連失敗的經驗都悉數分享,爲全球其他團隊改進⾃身訓練技術提供了切實可⾏的參考。

4、能通過優化芯片底層代碼,實現高效訓練的人才屈指可數,DeepSeek就擁有此類人才。從全球範圍來看,這種人才只存在於美國的前沿實驗室和DeepSeek這樣的企業。

5、模型本身並不會竊取數據,模型的託管方纔有可能竊取數據。DeepSeek的開源意味着用戶不必聯網使用AI服務,對自己的數據有完全的掌控權。

6、樑文鋒是一位馬斯克、黃仁勳式的人物,他事必躬親,深入研究AI技術;他堅信AGI(通用人工智能)的願景,並希望讓中國在AI⽣態系統建設⽅⾯發領導作⽤,是DeepSeek背後的“夢想家”。

7、DeepSeek-R1在海外引發擔憂,本質上是因爲其提出了新的模型訓練方向。AI技術驚人發展,未來更多類似的突破還會出現,目前雖然有很多人在關注Agent,但AI的未來不止於此。

8、模型表現得好就應該儘快發佈,由於AI發展迅猛,企業最好能縮短模型訓練完成到正式發佈之間的時間差距。如果運行良好,就儘快發佈,這能提升用戶對產品性能提升的感知。DeepSeek在這方面做得更好。

二、模型特點:推理能力靠自學,大方展示思維鏈

1、DeepSeek-R1的亮點之一是會展示完整思維鏈,模型的思考過程本身能提供一種獨特的美感。o1-pro在許多問題上的表現仍然比較亮眼,o3-mini-high聰明快速但平庸,缺乏新意與深度。

2、DeepSeek-V3傾向於快速生成答案,通常會以格式化的方式呈現,與大部分AI模型類似。DeepSeek-R1會先呈現大量思維鏈過程,然後轉變語氣,給出最終答案,答案的形式與V3類似。

3、OpenAI與DeepSeek的服務成本差異巨大,這是因爲前者的利潤率很高,毛利超75%。DeepSeek其實是在賠錢運營,目前還沒有能力大規模提供服務。

4、DeepSeek-R1的推理能力不太可能是因爲他們竊取了OpenAI o1的推理鏈數據。即便DeepSeek真如OpenAI指控的那樣蒸餾了模型,也在效率方面實現了令人驚歎的成就。

5、DeepSeek-V3與DeepSeek-R1都使用了DeepSeek-V3 base作爲基礎模型。這一基礎模型在預訓練階段,通過預測互聯網上海量文本中的下一個詞語,學習了語言的通用規律。其主要功能是續寫文本,但並不像主流的聊天機器人那樣易於使用。

6、DeepSeek-V3採用的後訓練流程,通過指令調優、基於人類反饋的強化學習(RLHF)等方法,構建出了指令模型、聊天模型或者所謂的“對齊模型”、“助手模型”等。DeepSeek-V3的性能出色,可以與GPT-4、Llama 405B等模型媲美。

7、DeepSeek-R1-Zero沒有使用人工撰寫的推理數據作爲參考,而是運用了強化學習的方式,讓模型自己在大量已有標準答案的可驗證問題上進行訓練,並根據答案的正確性給予模型獎勵,從而讓模型自發地涌現出了推理能力。

8、DeepSeek-R1完整版的推理能力是預訓練語言模型和強化學習結合的產物。在推理訓練之後,進行了基於人類反饋的強化學習。

三、技術突破:MoE架構、降低成本、底層優化

1、DeepSeek創新的多頭注意力機制在長上下文的處理過程中有很大優勢。與初代注意力機制相比,這一創新能讓注意力機制的內存佔用減少大約80%-90%。

2、DeepSeek顯著改進了專家混合模型(MoE)的路由機制,並引⼊了⼀個額外的參數,通過不斷更新這個參數,積少成多,最終讓模型能更均衡地使⽤所有專家。

3、爲實現性能的最大化,DeepSeek進行了CUDA層以下的超底層編程優化,精細地控制哪些核心負責模型計算、哪些核心負責通信,並在兩者之間進行動態切換。

4、通常的MoE模型只包含8-16個專家模型,每次激活兩個模型,但DeepSeek採用了極高的稀疏因子,並從256個專家模型中激活8個,減少了激活參數的規模,從而讓成本更低。

四、訓練啓發:不斷小規模試錯,但也要有All-in的勇氣

1、“苦澀的教訓”:在深度學習領域,那些具有可擴展性的學習和搜索⽅法最終會勝出,研究人員最好減少人爲先驗知識的影響,探索有效利用深度學習系統,解決宏大問題的簡單方法。DeepMind沒有使用人爲數據,憑藉強化學習就訓練出了強大的AlphaZero模型,有效證明了上述觀點的正確性,而DeepSeek-R1在推理能力上實現的進步,也源自強化學習。

2、DeepSeek的代碼庫很可能比較混亂,用於測試各種新想法。初期代碼比較粗糙,但用於訓練DeepSeek-V3和DeepSeek-R1的代碼質量會比較高。

3、DeepSeek通過大量小規模的失敗,逐漸積累經驗,證明了專家混合模型的有效性、MLA方案的可行性等,最終找到超參數成功組合。這一過程中需要不斷試錯。

4、在試錯到一定階段時,開發者也需要發揮YOLO精神(即You Only Live Once,只活一次,大膽去做),將全部資源押注於一條路徑上。DeepSeek早期幾乎賭上全部資源,正如OpenAI 2022年用公司100%的資源訓練GPT-4那樣,都是極爲大膽的舉措。

五、計算資源:集羣規模全球領先,與幻方共享基礎設施

1、幻方量化在2021年時就對外界宣稱擁有萬卡A100集羣,雖然這些模型並不全部應用於大語言模型訓練。後期DeepSeek成立後他們持續購⼊更多的GPU,並與幻方量化共享基礎設施。DeepSeek論文中提到V3模型訓練時用了2000個H800 GPU,但SemiAnalysis認爲他們實際擁有的GPU數可能接近50000個,但分佈於多個領域。

2、Meta同樣訓練開源模型,他們的訓練集羣擁有約60000-100000個H100等效GPU,Llama 3訓練時使用了16000個H100 GPU,Meta去年披露其總計購買了40多萬個GPU,其中僅有很小一部分用於模型訓練。從這一角度來看,DeepSeek的集羣規模在全球範圍內名列前茅,僅次於OpenAI、Anthropic、Meta等少數幾家公司。

3、無論將超級AI應用於哪裡,都需要大量計算能力,計算資源差距累積效應對美國至關重要。如果未來世界只有2%-3%的經濟增長,那維持芯片這樣的高科技產品出口是很愚蠢的,會損失大量經濟利益。但在超級AI即將出現,併產生重大影響的背景下,美國單方面維持技術差距是有利可圖的。隨着AI對算力的需求呈指數級增長,即便是DeepSeek這樣的中國企業也會在大規模普及AI的過程中遇到困難。

六、DeepSeek或將開啓一場AI冷戰

1、AGI可能會在2030年之後實現,未來⼏年會持續出現快速、令⼈驚訝的進展。DeepSeek-R1就是這一進程中的一個最新進展。

2、AGI競賽不會是“贏家通吃”的局面,目前AI領域的各大玩家都還在牌桌上,谷歌仍是AGI競賽的領跑者,OpenAI則更具有輿論優勢,微軟已經在AI方面實現盈利。

3、DeepSeek的出現讓中美雙方都更爲直接地感受到AGI的影響。DeepSeek時刻很可能是⼀場冷戰的開始,但這不是DeepSeek的錯,⽽是⼀些因素共同作⽤的結果。

視頻鏈接:

https://www.youtube.com/watch?v=_1f-o0nqpEI