朱嘉明、倪賢豪:馬斯克Grok 3後,瞭解DeepSeek認知幾大誤區

昨天(18日)中午在DeepSeek R1發佈近一月後,馬斯克宣佈旗下xAI公司研發了新一代AI模型Grok 3,自稱最聰明、“又好又貴”,此舉再次引發世人對AI大模型和DeepSeek關注。1月20日,國產推理大模型DeepSeek系列實現現象級創新,以開源方式展現了其平民化的面向,不僅提振了國人對科技自主自強的民族自信心,也大大“腦補”了全民的大模型知識和應用技能,以倍速提升着科學素養。在如潮的評價中難免有些模糊和誇張的觀點,爲此,文匯報記者李念採訪了兩位業界專家——經濟學家、橫琴數鏈數字金融研究院學術與技術委員會主席朱嘉明,北京智源人工智能研究院戰略研究中心負責人倪賢豪,以廓清一些認識誤區。

誤區1:低成本是成功標準之一?爲引領大模型潮流,仍需提升成本投入

“從經濟上來看,DeepSeek的意義之一,在於超越了人工智能大模型早期開發的沉沒成本,但是,成本的降低並沒有絕對普遍意義。”作爲1980年代已在業界享有盛譽的經濟學者,新世紀後深耕元宇宙、AI大模型前沿發展的朱嘉明明確指出,成本優勢並不意味着長期可持續、可重複。DeepSeek下一步依然處在競爭中,它需要提升基礎設施,實現高性能芯片的迭代。“如要引領AI大模型的潮流,成本上升是不可避免的。”朱嘉明此前撰文認爲,DeepSeek V3、R1的貢獻有三:相對較低的基礎設施硬件成本、算法複用成熟度提升、數據成本有效控制。

*在人工智能“涌現”之前,從0到1的創新往往是不計成本的

“降低成本、形成成本優勢是推動經濟增長的重要手段,但是不要把成本降低的目標絕對化。”朱嘉明指出很多人認知中容易犯的模糊點——降低成本的目的是在長期競爭中實現持續創新。他繼而分析,人工智能改變了傳統工業產品的成本結構。後者有明確的狹義成本、廣義成本以及邊際成本等概念,而人工智能大模型產品的成本結構、邊際概念、折舊攤銷等都不相同,其迭代速度甚至打破了摩爾定律,“人工智能產品生命週期以年,以月、周爲單位爲計算,非常短暫。”

在這一輪人工智能“涌現”之前,從0到1的創新往往是不計成本的。“未來,人工智能發展也很難把成本當作有限尺度”,處於不同階段的人工智能的成本並不相同,需要具體分析。

對此,來自業界知名大模型研究機構的倪賢豪分析,以GPT 4、GPT 4o、Claude 3及3.5系列爲代表的預訓練模型,其在過去及未來的高成本投入的價值,並不爲此次OpenAI o1/o3、Deepseek R1系列爲代表的推理模型的現階段成本投入即可換來較高能力提升的現象所抹消或減弱。

正如朱嘉明所提及,一方面在大模型涌現前,從0到1的創新在投入上往往不計成本。另一方面,倪賢豪指出,預訓練模型已處於Scaling Law的後半段,亦即進入所謂邊際效應遞減作用較爲凸顯的階段。與尚處於後訓練/推理Scaling Law早期的推理模型做成本比較,並不恰當。

*推理模型的性能天花板加速到來,對於算力的要求將持續提升

考慮到成本低、性能提升大,必將帶來海量玩家的涌入。僅在Deepseek R1發佈至今不到一月內,我們便已看到比如斯坦福大學李飛飛所謂的50美元復現模型s1、Grok 3 Reasoning Beta、OpenAI o3-mini等多個推理模型。從目前各家國內外廠商進展及披露來看,未來數月內我們將看到更多推理模型發佈。倪賢豪梳理,與此同時,我們僅統計2024年11月以來的主要模型更新,推理模型便達到十多個,Deepseek R1是其中效果最突出的代表。

基於以上說明,成本低、性能提升高、玩家多,這勢必帶來推理模型的性能天花板快速到來。倪賢豪認爲,參考預訓練Scaling Law近年來的邊際效應遞減走勢,推理模型的性能天花板或在1年左右便將到來。與之相應地,推理模型的成本也將隨着這一走勢不斷拉昇。

誤區2:預訓練已進入終結版?從Grok 3看Scaling Law仍在持續生效

GPT-4以來,儘管下一代預訓練基礎模型難產。但從目前各廠商披露信息來看, Grok 3等下一代基礎模型目前已訓練完成或是在訓練中。xAI、Meta等海外頭部廠商在十萬卡以上集羣的搭建也正持續進行。

倪賢豪分析,昨日馬斯克發佈的Grok 3大模型,在規模達10萬卡的H100集羣完成訓練,後期在擴容到20萬卡後,對Grok 3可做繼續優化升級。從官方發佈的測評結果來看,僅就基礎模型而言,Grok 3在數學、科學問答、編程等能力維度上,較Gemini-2 Pro、Deepseek V3、Claude 3.5 Sonnet、GPT-4o平均仍高出25%以上。

儘管相較推理模型的能力提升而言,預訓練模型的性價比較低,但Grok 3證明了預訓練Scaling Law仍在生效。Scaling law最初在NLP領域被觀察到,並應用於語言模型。隨着模型大小的增加,訓練損失降低,模型生成性能提高,捕捉全局信息的能力增強。通俗來講,就是預訓練基數越大,性能越高。朱嘉明指出,國內觀察者對此的觀察,要避免“說話太滿”的傾向。

“基於預訓練基礎模型,再使用強化學習增加推理能力”的推理模型新範式,對於預訓練基礎模型依舊有着高要求。倪賢豪進一步認爲,李飛飛團隊基於Qwen2.5做數據蒸餾,實現性能較大提升的s1,正是說明了預訓練基礎模型在新範式中的重要性。

同時,在不久的將來,推理模型性能天花板到來之際,仍在生效的預訓練Scaling Law帶來的能力提升,對於全局模型性能提升來說,仍有着不小的價值。

誤區3:蒸餾技術有奇效?HLE測試持續提高,年底會突破50%基線

本輪人工智能發展以2017年6月12日Transformer架構論文發表爲里程碑,到2025年1月20日,DeepSeek R1發佈以及近期李飛飛團隊發佈s1模型,實現蒸餾谷歌Gemini 2.0 Flash Thinking模型,技術迭代極爲迅速。

“人工智能向尖端發展,就要不斷提高測試人工智能的標準。”朱嘉明在幾天前接受《證券時報》採訪時提出。HLE(Humanity's Last Exam,即人類最後測試)標準集整理了全球50個國家和地區、500多個機構設計的3000個問題,涵蓋知識儲備、邏輯推理、跨域遷移等核心能力評估。朱嘉明預測,2025年年底,大模型的HLE評估體系的綜合表現很有可能突破50%基準線,目前僅在20%左右。可以肯定,HLE絕非測試人工智能大模型的最後標準集。

誤區4:中美差距縮小至數個月?在具體語境中謹慎評價

對於評論中認爲這次DeepSeek的問世,至少將中美AI大模型領域的差距從兩三年縮小到幾個月的觀點,倪賢豪認爲,對中美AI大模型差距的年限判斷還是應該更爲謹慎。

目前Deepseek R1更多是通過大規模強化學習及多階段後訓練,實現模型推理能力的提升,逼近OpenAI o1的能力水平。在此基礎上,模型高度開源和成本定價策略,使得Deepseek R1在全球範圍內獲得廣泛聲譽。

但值得一提的是,目前Deepseek R1的能力水平只是逼近了OpenAI o1,仍較OpenAI o3有距離,近日發佈的Grok 3 Reasoning Beta也在其之上。在推理模型逼近算法優化極限,開始“卷”算力規模之前,“我們仍不可輕易判斷中美AI差距在多長時間。”

誤區5:商業化落地更重要?雙途並進:尖端突破,低成本普惠

對於人工智能的發展方向,朱嘉明認爲要“頂天立地”,兼顧兩條路線:一條路線是支持尖端突破,擴張前沿,探索未知領域,這需要高成本投入;另一條路線則是推動低成本和商業化落地,惠及民衆。

當然,前者路線具有相當挑戰性。倪賢豪認爲,無論是仍在生效的預訓練Scaling Law,還是處於高速增長的後訓練/推理Scaling Law,都在當前或是未來對算力規模有更高要求。因此,考慮到模型“涌現”的持續追求,在算力、數據、算法創新上的高成本投入是必不可少的。至於推理優化帶來的持續成本降低,對於AI應用迎來真正的爆發十分關鍵。“如何更好地在推理優化技術中實現迭代革新,對於實現大模型的低成本普惠至關重要,這也是我們在2025年會看到的趨勢之一。”

朱嘉明曾多次表示,人工智能能超越所有傳統工具。這一次的現象級創新,再次佐證了這一點。他分析,當前最先進的顯微鏡能看到最小單位到“埃”的微小物體,約爲頭髮半徑的百萬分之一,最先進的天文望遠鏡能觀測到130億光年以外。“AI超越最先進的電子顯微鏡和天文望遠鏡,把無法觸及的宏觀、微觀物理世界都加以模擬並展現在人們眼前。”因此這種尖端突破是必不可少的。他極爲關注李飛飛團隊正在致力攻克的“空間智能”,對多維度空間問題的探索是當前AI重要的方向,比如大於四維的空間如何存在、如何表現,以及如何展現量子世界。