DeepSeek樑文鋒,準備戰鬥
摘要:
下一個引領浪潮的人是誰?或許連DeepSeek與樑文鋒,都在等待下一個強如o1的對手。
7月底的上海,疲勞與抓狂並存。疲憊在於一場聲勢浩大的國際性盛會剛在這裡落幕。這是WAIC(世界人工智能大會)舉辦以來規模最大的一次,不僅參展商數量暴漲了60%。連從未現身中國的AI教父辛頓也驚喜閃現,會場門票直接炒到了“單日千元”。抓狂則在於,人人都想拿出看家本領,試圖復刻下一個“炸裂”時刻。
參展到半程,有大模型企業半夜還在調試模型參數,“深夜突然決定發佈,第二天全班人馬拉足火力”,有現場的參展企業向鳳凰網科技透露,和往年不同,今年WAIC吸引了不少外國的觀衆,其中包括外媒這樣的專業觀衆,這是中國大模型企業難得有機會最近距離復刻DeepSeek效應的時候。
但過分追求結果的人們往往會忽略一個真相,技術可以複製,顛覆太難模仿。 想重走DeepSeek之路,一切沒那麼簡單。
重走DeepSeek之路
就在外界用誤讀的方式唱衰DeepSeek之際,又一個DeepSeek時刻最先從海外爆出。
7月中旬,英國《自然》雜誌網站發表文章稱,中國人工智能(AI)模型Kimi K2發佈後引發轟動,世界迎來“又一個DeepSeek時刻”。
Kimi在7月11日正式發佈K2模型,其採用了一套經過精心優化的萬億參數混合專家架構,總參數量達到1.04萬億,但激活參數僅爲320億。很快人們就發現,K2採用了和DeepSeek-V3相似的架構,即多頭注意力的頭數更少,MoE的專家數更多,因此可以在提高上下文效率的同時提升token使用的效率。“Kimi K2基本上是DeepSeek V3,但擁有更少的頭腦和更多的專家。”有從業者如此表述。
架構相似,也走開源路線。Kimi的一位內部員工後來也很坦誠的表示,“在啓動K2訓練之前,我們進行了大量模型結構相關的scaling實驗,結果是,所有當時propose的、與DSv3不同的結構,沒有一個能真正打敗他的(頂多旗鼓相當)。因此,問題就變成了,我們要不要爲了與DeepSeek不同,強行選擇一個沒有優勢但不一樣的結構,最終的答案是no。”。所以Kimi只做了一件創新,就是在同樣的架構裡,把參數拉到爆表。考慮到Kimi仍舊是一家創業公司,沒有無限子彈,而目前大家能看到的K2實現的結果,已經是Kimi所能承受的算力上限。
儘管K2沒有到大爆的程度,但其在海外的確在短時間內吸納了極大的關注度。7月中旬,據OpenRouter公佈的數據,Kimi K2調用量與馬斯克剛發佈的Grok4登上增長榜前兩名,日調用量超過 100 億 token,而Kimi K2的API價格僅爲Claude Sonnet的五分之一。
這也就有了前文開頭的一幕,海外媒體報道,又一個DeepSeek時刻涌現。
緊接着在7月28日凌晨,智譜帶來了其自身迄今爲止最大參數的開源模型GLM-4.5,雖然彭博在援引知情人士表述時寫的是“該公司正試圖在全球範圍內挑戰OpenAI”,但一樣走開源路線,一樣希望在海外引爆的思路,實際上也是在重走DeepSeek之路。
更早之前,無論是Kimi、階躍星辰還是MiniMax,都重提堅持基礎模型研發。這與樑文鋒追求AGI的理念如出一轍。
下一個o1也很重要
AI行業從業者“AI Dance”形容當前的AI發展是“草灰蛇線,伏脈千里”,“如OpenAI在探索出RL(強化學習)範式後(指發佈o1),又被DeepSeek R1揭示秘密,所有從業者一擁而上”。而如今的coding Agent(編碼智能體)與大參數的MoE模型,則全部在DeepSeek-V3的架構之上,可以說,當前這一輪風潮皆是因爲DeepSeek。
正如另一位Kimi員工所言,“K2還是先狠狠地致敬DeepSeek了,而不是刻意標新立異,更多的想法和創意,我們把它們做得更紮實之後,在K3、K4再見了。”
然而下一個引領浪潮的人是誰?當前仍未有答案。或許甚至連DeepSeek與樑文鋒,都在等待下一個強如o1的對手。
此前有消息稱,GPT-5將於2025年8月發佈。作爲GPT-4的迭代升級,這不僅是簡單的版本更新,更是一次全方位的技術躍遷,將從推理能力、多模態交互、智能代理到開放生態等多個維度重新定義AI的可能性。
目前,OpenAI的GPT系列與o3推理引擎處於分立狀態,用戶需根據不同任務手動切換模型。而GPT-5將徹底打破這一界限,首次實現語言生成、邏輯推理、數學計算、多步規劃等功能的深度融合,構建真正的“統一智能”系統。
GPT-5無需手動切換模式,能智能判斷任務需求,在需要深度推理的複雜場景(如代碼調試、數學證明、商業決策)與快速響應的簡單場景間自動切換。在複雜任務處理上表現應該會有很大一部分提升,尤其在代碼優化、數學推導、戰略決策等領域。
OpenAI CEO山姆·奧特曼則在X上透露:“早上,我正在測試我們最新的大模型,輸入了一個我自己都不太理解的問題,它卻給出了完美的回答。’”
外部用戶也陸續捕捉到GPT-5的早期跡象。網友Yacine在社交平臺表示,自己剛試用了一款AI公司的大模型,體驗“震撼到難以置信”,並斷言“沒有人能預料即將到來的風暴”。
更有用戶反饋,在使用OpenAI模型時被“灰度”到一個全新AI:無需提示,該模型可連續思考3分鐘,並同步進行大量搜索操作。當用戶選擇“4o”模型時,ChatGPT直接進入思考狀態,這一現象引發猜測——OpenAI是否已在悄然過渡至GPT-5?
GPT-5的發佈,會不會成爲下一輪國產模型的引爆點也尚未得知。回想o1發佈之際,全球陷入算力內卷,DeepSeek以算法革命對衝硬件依賴。許多大模型在預訓練階段幾乎都選擇了不計成本地投入,而DeepSeek選擇劍走偏鋒,把重點放在了上崗之後的強化學習。用反覆高強度地訓練,倒逼自身不斷地調整姿勢,理解邏輯,自我反思,直到結果令人滿意。
DeepSeek改變了什麼?
在正式發佈R1之前,DeepSeek一直在圈內有着不錯的口碑,“業內很早之前就比較看好DeepSeek,甚至最早的價格戰就起源於DeepSeek”,一位算法工程師告訴鳳凰網科技。但在大衆層面上,DeepSeek一直沒有感知。因爲沒有融資需求,DeepSeek也鮮少對接投資機構,甚至沒有設置專門的公共溝通部門。
到今天,樑文鋒依舊幾乎不在公開場合露面。只存在於一些CEO的講述中,比如rokid創始人祝銘明會在不經意間提起樑文鋒在他家聚餐,羅永浩也在近期的一次公開活動中談到其在今年春節前與樑文鋒的會面,“我們在酒店大堂見面時,他從遠處走來,就像一個在讀學生。或許因爲年紀稍長,感覺像個碩士或博士。”
DeepSeek也在不經意間影響了很多同行。
比如讓曾經堅定的閉源派,如百度等企業,走上了開源之路,正式開啓了開源模型的中國時間。
相比於過去希望成爲“中國版OpenAI”,越來越多人想做下一個DeepSeek,鳳凰網科技早先了解到,Kimi已徹底轉向“研究爲重”的內部氛圍,楊植麟已幾乎不參與公開活動。階躍星辰在多模態技術上有着全球頂尖的人才儲備,也正信心滿滿的押注下一個範式。
字節的大模型研究團隊目前也在重點攻克技術,甚至張一鳴本人頻繁往返於北京和新加坡,和不同的技術從業人士交流。
本文源自:鳳凰網科技