當我們談論DeepSeek時是在談論什麼

王鑫

在國內輿論場中,DeepSeek創始人樑文峰與DeepSeek是深度捆綁的,有人稱他是人工智能上甘嶺的“黃繼光”,有人說他是中國的“馬斯克”。在筆者看來,更重要的或許在於做好DeepSeek與樑文峰思維的解碼——當我們在談論DeepSeek時,到底在談論什麼,或者說應該談論什麼。

其一:突圍,山重水複疑無路

ChatGPT問世以來,全球AI競賽正式進入“大力出奇跡”時代。當美國科技大廠已投入巨資,構建起了一套由他們制定的行業標準、生存法則時,當很多人潛意識中已默許,AI領域未來發展的話語權、主導權和控制權正牢牢掌握在西方手中時,來自中國的DeepSeek卻突然闖了進來。

DeepSeek用架構算法、訓練方式、工程優化等系統性創新,在千億參數規模下展現出與GPT-o1-1217相當的推理能力,以顯著降低的訓練成本,走出了一條差異化技術路徑,實現了國產大模型的突圍。

美國拜登政府2022年實施並在此後多次收緊禁止向中國出售最先進芯片及芯片製造設備的禁令,目的就是限制中國獲取尖端技術。DeepSeek團隊正是在美國AI芯片禁運的壓力下,不得不在較低性能的H800GPU上訓練模型。但正是這樣的“降維”,反而推動了算法優化的突破。

其二:創新,東風夜放花千樹

DeepSeek的成功,挑戰了AI領域“規模至上”的傳統思維。從技術角度看,DeepSeek主要創造了哪些核心創新?

首先是模型架構。混合專家模型(MoE)通過將模型分成多個專家,並在每個特定任務中只激活少量合適的專家,從而在推理過程中減少參數量,提升效率。DeepSeek引入了新的無損負載均衡技術和路由網絡方法,有效降低了通信開銷,突破了傳統方法增加通信開銷換取高效推理的瓶頸,使得新框架更加穩定高效。

其次是算法突破。多頭潛在注意力機制(Multi-HeadLatentAttention,MLA)是DeepSeek最關鍵的技術突破,它顯著降低了模型推理成本。

第三是訓練方式。DeepSeek-R1-Zero首次證明了基於大規模強化學習(RL)與高質量合成數據(SyntheticData)結合的技術路徑,可在不依賴標註數據、監督微調(SFT)的情況下,獲得高水平推理能力。在R1-Zero訓練中,DeepSeek應用組相對優化策略(GRPO)和兩個簡單的獎勵函數,使得R1-Zero自發形成了評估和優化推理的能力,產生令人驚歎的“頓悟時刻”(AhaMoment)。

第四是數據策略。DeepSeek採用高質量合成數據的數據策略與其訓練方式、推理任務相匹配,極大降低了數據成本。“數據質量優先”的核心原則也已逐漸成爲領域共識:比數據規模更重要的是數據質量與知識密度,相應地,DeepSeek採取了拒絕採樣(rejectionsampling)等基於驗證的數據篩選與增強方法。

最後是工程技術。DeepSeek繞過了英偉達的通用編程框架CUDA,使用了更底層也更復雜的PTX(ParallelThreadExecution)彙編語言直接操控GPU指令集,從而實現芯片算力的效用最大化,併爲未來適配國產GPU留下巨大的想象空間。

其三:未來,長風破浪會有時

DeepSeek的橫空出世讓人們重新反思大模型、AGI領域暴力美學式的思維慣性,也重新關注算法、架構、優化等技術創新的巨大潛力。更重要的是,DeepSeek-R1還可以免費使用,而且是開源的。低成本與開放性的強強聯合可能有助於普及AI技術,讓其他國家(尤其是美國以外)的開發者能夠入局。

DeepSeek撕掉了此前籠罩在AI之上的神秘面紗。它專注創新,在人工智能全球競爭白熱化的關鍵時期形成突破,爲中國的智能生態構建奠定關鍵基礎;它擁抱開源,拒絕“CloseAI”,爲全世界技術社區做出堅實貢獻。當我們讚歎DeepSeek產品的巨大成功,也應當關注其團隊的系統性創新能力,這既包含多方面的技術突破,也包括如何聚合“高密度技術人才”、如何爲年輕團隊提供高效的創新土壤。

最後,也要指出DeepSeek的關鍵破局點,是在保持推理能力相當的情況下,實現了訓練及計算成本的極大降低。而從數學原理上說,並未跳出大模型浪潮範疇,這也意味着,DeepSeek也無法解決這一技術路線下不可解釋、幻覺等內在問題。因此,關於智能“涌現”的根本奧秘,關於現有模型的智能邊界與潛力,關於模型的解釋性、泛化性、穩定性,尤其是幻覺引發的認知安全風險,仍是值得深入探索的重要議題。

長期而言,算力依然是人工智能的基礎設施,我們也期待芯片領域誕生屬於中國的DeepSeek時刻。

(作者爲北京航空航天大學人工智能學院副教授)