獨家|商湯首席科學家林達華:開源模型與頂尖閉源模型的差距正在迅速縮小

《科創板日報》2月21日訊(記者 黃心怡)由DeepSeek點燃的人工智能熱潮,仍在持續。面對這場熱鬧異常的“AI春節檔”,全球大模型市場內的玩家們都在加速行動。

《科創板日報》記者獨家獲悉,商湯科技聯合創始人、人工智能基礎設施及大模型首席科學家林達華在近日一場閉門交流會上,談及了對DeepSeek的看法、算力需求、未來AI技術路徑、商湯未來大模型計劃等。

林達華認爲,DeepSeek不會降低市場對算力的需求,在可見的2025年內,整體算力需求仍將保持增長。特別是隨着DeepSeek推理能力不斷突破,它帶動了下游應用市場的快速擴展,推理市場正呈現供不應求、快速增長的態勢。

作爲開源路線的堅持者,DeepSeek的出圈也被認爲是開源的勝利。林達華認爲,開源不僅改變了全球AI和大模型的產業格局,還加速了技術的傳播和普及。其次,開源模型的追趕速度非常快,與頂尖閉源模型的差距正在迅速縮小。未來,大模型應用將從問答、文本改寫等淺層工具,轉向替代行業中高價值的核心任務。大模型需要在特定行業任務上突破工業紅線,才能實現規模化應用。開源只是技術價值鏈中的一環,而非全部。

以下是林達華交流整理實錄:

DeepSeek R1選擇了一條獨特且不同主流的道路

Q:春節AI熱潮又興起,國民討論度再創新高,DeepSeek最厲害的突破在哪裡呢?

林達華:DeepSeek有兩個近期的版本,一個是V3基礎模型,另一個是R1推理模型。這兩個模型的核心亮點是不一樣的。V3 在於模型和系統垂直整合後實現的訓練效率的優化;而R1是構建強推理能力的新算法路徑。

首先說一下 V3,V3整體表現非常優秀,綜合能力強,且在多項評測中表現突出。爲何V3能夠達到如此高的水平,主要歸功於兩個方面。首先,模型本身達到了一流大模型水平,首先在於數據的多樣性和高質量處理。這是任何一個基礎模型能達到很高水平的根本,V3 也不例外。

另一個關鍵因素是DeepSeek V3的訓練效率非常高。它通過模型結構、訓練方法和並行策略的聯合優化,提升了訓練效率,使其達到較高水平。用幾百萬美元就完成了一個大模型的訓練。

具體而言,R1 能夠將訓練成本降至如此低的水平,主要依賴兩個方面的優化。首先是模型結構,它採用了 MoE架構,如今幾乎所有一線企業都在使用 MoE(混合專家架構),因此這一點並不特別。但是,它採取了一種更優的 MoE 負載均衡策略,提升了 MoE 訓練的效率。另一個關鍵因素是訓練技術的優化:在確定了模型結構後,訓練方法本身也結合了多種策略。首先,它採用了 FP8精度運算,而不是傳統的 FP16。這一改進使計算效率相比 FP16 提升了 60% 以上。在 FP8 訓練過程中,值得特別提到的是,它利用了CUDA PTX的底層代碼優化,爲FP8 訓練實現了一種高效的混合精度乘法,這是整個訓練流程中最核心的算子之一,對 FP8 訓練效率的提升起到了至關重要的作用。

然後是R1,它選擇了一條獨特且不同於主流的道路:基於結果監督的強化學習路線。首先,它建立在 DeepSeek V3 形成的強大基礎能力之上,強化學習過程本身並不會賦予模型全新的知識或完全前所未有的能力,而是在基礎模型所提供的知識基礎上,使其更容易激發出完整的推理鏈路。其次,強化學習之前有個冷啓動(cold-start)階段,這是一個“點火”階段,雖然使用數據不多,但是爲後續的強化學習的走通打下很重要的能力基礎(比如指令跟隨等)。然後是 DeepSeek-R1-Zero的強化學習訓練,這是這個技術路徑的核心創新所在,它確實是有顯著效果的,在內外部的交叉驗證中也證實這一點。這裡面的關鍵不是具體強化學習算法的選型(GRPO),而是證明了在一個強大基模型的基礎上,通過純結果監督的強化學習能形成可泛化的推理能力。

Q:DeepSeek的高效訓練是否會顯著降低市場對算力的需求?

林達華:我們內部的判斷是算力需求不會下降,主要基於以下幾個觀察:首先,在訓練層面,儘管 DeepSeek 展現出了較高的訓練效率,但其提升幅度並非突破性的,並未達到比同行高出兩個數量級的程度。從單次訓練成本來看,同等大小的模型,例如我們曾訓練過的類似大小的MoE,其訓練效率與 DeepSeek相差不大。

其次,DeepSeek研發投入是包含多次實驗試錯尋求最佳技術方案的。幾百萬美元的訓練成本是單次成本,這是我們在估計研發成本時需要充分考慮的。

此外,RL(強化學習)路徑的成功已經顯現出巨大的價值,我們預計未來許多機構將嘗試大規模擴展 RL訓練,這將進一步提高算力需求。更重要的是,整個行業的競爭態勢。即便單次訓練成本得到了優化,並不意味着總成本會下降。因爲市場競爭白熱化,效率的優化會加快迭代,但不會降低總體需求。

推理方面,隨着DeepSeek推理能力不斷突破,它帶動了下游應用市場的快速擴展。目前,已達到可以與 OpenAI 同臺競爭的水平。這也導致大量用戶從 OpenAI 遷移至 DeepSeek,但它自身的承載能力有限,難以滿足全部需求。因此,市場上許多國產廠商包括商湯大裝置紛紛上架R1,以支持不斷增長的推理需求。推理市場正呈現供不應求、快速增長的態勢。

綜合這些因素,我們判斷,在可見的2025年內,整體算力需求仍將保持增長。

多模態大模型是核心發展方向

Q:大模型未來演進路徑會是什麼樣的?

林達華:現在大多數講述的仍是語言模型的故事,但在真實業務場景中,AI 需要處理的信息遠不止於語言,而是多模態數據的融合。

現實世界中,無論是閱讀報告、課堂教學,還是PPT,信息輸入從來都不是單一模態的,語言只是我們所獲取數據的一部分,還有大量圖像、視頻、音頻、傳感器數據尚未被充分利用。多模態仍然是 AI 發展的必然方向。隨着多模態技術的發展,AI將從語言模型,演進爲推理模型,最終發展爲世界模型。

在推理與理解能力提升的基礎上,下一步的關鍵方向是智能體。唯有具備完整決策與執行能力的 AI 智能體,才能真正實現商業價值的閉環。這類智能體不再侷限於提供信息或建議,而是能夠獨立自主地完成各類任務,以更高效、更智能的方式驅動業務的發展與創新。

Q:多模態模型技術門檻到底在哪?它是語言模型的擴展嗎?

林達華:一些人認爲多模態只是語言模型的一個簡單擴展,但實際上,真正意義上的多模態遠不止於此。

AI 從一開始就應該具備多模態感知與理解能力,而不僅僅侷限於語言層面。從商業角度來看,多模態在真實應用場景中的需求已經非常明顯。現實中的應用場景本就是多模態的組合,而真正意義上的多模態,不只是把不同模態的內容轉換爲語言 token 進行輸入,它應該貫穿整個 AI 處理流程,從感知、思考到輸出。更重要的是,多模態模型需要具備記憶能力。這意味要對LLM技術架構徹底重構,而不僅僅是對語言模型的簡單擴展。

當前業內普遍討論一個問題:未來 1-2 年內,互聯網的純語料數據將被消耗殆盡。但一個被忽視的重要事實是,我們仍然擁有海量的天然存在的視覺數據。事實上,我們已經看到包括 OpenAI 等國內外一流的模型研發機構正花費巨資,從各個渠道收集視頻數據,以用於訓練更高級的大模型。

從第一天開始,我們就堅定地認爲,多模態大模型是我們的核心發展方向。原因在於,天然語言的信息是有缺失的,單一的語言模型無法完整解決業務問題。對於多模態模型,我們設定了明確的技術目標,即:強交互能力、強推理能力和長期記憶能力。

其中,多模態的強推理能力目前具備較高的技術門檻,因爲包括像視頻、圖片這樣數據的信息密度跟語言文字的信息密度,完全差得不是一個數量級。這需要對數據進行一個提煉,這是多模態模型非常關鍵的地方:怎麼樣從大量的冗餘裡面去提取出裡面高密度的關鍵信息,並且與語言互補的信息結合來做整個的分析推理等。進行模態融入的過程,這裡面有很多技術上要去做,記憶過程也有很多工作。

同時,整個過程對基礎設施和訓練系統也提出了很高的要求。在一個訓練過程中,Transformer的計算在GPU上面發生,對答案或者生成代碼的檢驗等的計算很多需要在CPU上面發生,,然後,視覺等模態的編碼的計算模式也有差異。需要在一個很短的 iteration 裡面,要完成3到5種很不一樣的計算,而且結果要協同在一起。要高效完成這樣的訓練,需要基礎設施裡面配置不同的計算資源,並且需要有一個高效的系統把不同的計算很好地協同在一起,以及支持好不同計算單元之間的頻繁通信。

所以基礎設施需要很強的彈性,能夠有各種不同的資源隨時有彈性地能夠組合在一起,這也是爲什麼商湯一直在說大裝置跟大模型要緊密結合發展,因爲如果你不掌握底下的基礎設施設計,資源配置肯定是跟計算需求錯配的。

Q:商湯選擇做多模態大模型,是有怎樣的考量?

林達華:首先是關於商湯在多模態深度融合方面的技術優勢。作爲一家起步於視覺領域的公司,我們對視覺模態在行業中的應用與價值有着深刻的洞察與理解。因此,從一開始,我們就確立了多模態技術路徑,作爲我們技術發展的核心。大語言模型是其中的一部分,但並非全部。在多模態技術方面,我們一直走在國內前列,特別是在多種模態深度融合的應用上。

此外,多模態技術的一個重要方向是大規模視頻的理解和分析。近期票房成績斐然、票房已破百億的《哪吒2》,國內市場異常火爆的短劇,以及我們經常刷的視頻網站和視頻聊天,這些都彰顯出視頻消費的體量和巨大的市場價值。要滿足這些需求,必須具備一個強大的模型,能夠分析、理解並結合較長的視頻。目前業內很少有公司在這方面有技術儲備,商湯在這方面的技術積累非常深厚。

在這樣的模型技術能力支撐下,我們會沿着兩個縱軸構建端到端的全鏈條技術體系:

其一,聚焦虛擬數字人的情感交互。商湯所打造的數字人不僅語言表達自然、親切、富有感染力,還具備優質的語音效果和視覺形象,能夠沉浸式地與用戶交互,擁有個性化記憶,理解並與用戶共情;

其二,發力生產力領域。從文檔解析、視頻理解、核心推理引擎,到資料搜索和工具調用,我們將圍繞關鍵行業方向,打造真正可靠的助手,而不僅僅侷限於知識問答機器人。通過這種方式,商湯旨在爲行業提供深度解決方案,創造遠超單純 Token 售賣的高商業價值,推動行業的創新發展。

大模型應用將從淺層工具轉向替代行業中高價值的核心任務

Q:大模型是否能賺錢嗎?開源是否會顛覆閉源嗎?

林達華:首先,開源在近年來大模型的發展中對產業格局產生了深遠影響。開源不僅改變了全球AI和大模型的產業格局,還加速了技術的傳播和普及。其次,開源模型的追趕速度非常快,與頂尖閉源模型的差距正在迅速縮小。

開源的核心優勢在於快速傳播——技術壁壘被打破後,先進成果迅速擴散,例如DeepSeek開源後,同類模型能力可被快速復現。此外,開源可以讓更多人可以參與到大模型的應用創新,加速大模型技術應用探索和普及的進程。

在這種背景下,真正的競爭優勢體現在兩個方面:一是與基礎設施的深度整合,通過軟硬件的垂直整合實現成本優勢;二是在特定行業的縱深發展,通過工程優化、業務理解和模型調優,爲客戶提供深度的價值。

未來,大模型應用將從問答、文本改寫等淺層工具,轉向替代行業中高價值的核心任務。類似於商湯在AI 1.0時代通過突破人臉識別的工業紅線,實現了產業複製。大模型同樣需要在特定行業任務上突破工業紅線,才能實現規模化應用。開源只是技術價值鏈中的一環,而非全部。

Q:在競爭格局這方面,DeepSeek V3和R1的API的價格,是否有可能帶來新一輪價格戰?

林達華:當前的價格競爭導致按token計費的利潤空間被壓縮至成本線,但長期低價服務難以持續。大流量服務商若持續低於成本定價,用戶量增長反而加劇虧損,市場終將回歸貼近真實成本的合理區間。

然而,真正的商業價值並非來自“按字收費”,而在於能否解決高難度業務問題。例如,生成深度行業報告或自主完成複雜任務的能力,其溢價遠高於通用問答。若僅依賴chatbot按token收費,難以支撐持續研發投入。

行業終局取決於大模型能否突破關鍵領域的“工業紅線”,形成端到端的價值閉環。最終我覺得行業會走到這樣的一個道路上:看大模型給用戶帶來了何種價值。當你依然採用按斤算錢的方式收費時,就代表了這個商業模式還沒有走的很通;而當你真正形成高價值落地的時候,收費必然會依據所提供服務本身的價值來確定。

Q:在如今的競爭格局下,商湯要走怎樣的路?

林達華:當前,許多公司或團隊選擇基於開源大模型進行一次性微調,希望在短期內獲得市場價值。與以往技術迭代週期長達十年、二十年不同,如今的 AI 發展週期已大幅縮短至三個月。在這樣的節奏下,單純依賴淺層微調或工具型產品的商業利潤空間將極爲有限。如果想真正抓住這個時代的紅利,就必須選擇更具挑戰性的方向。

對商湯而言,有兩項關鍵戰略選擇至關重要。其一,打造強大的基礎能力,儘管不同機構在這一方面的定位可能會有所差異。其二,深耕特定行業,做出端到端的全鏈條價值,深入理解行業需求,將每個環節做到極致。

去年十月份,商湯公開提出“大裝置、大模型、應用”三位一體戰略。這一戰略正是基於 AI 未來高價值方向的判斷。無論市場如何變化,即使 DeepSeek-R1等新技術出現,我們依然堅定這一戰略方向,這些新技術的發展非但沒有動搖商湯的戰略佈局,反而進一步驗證了其高價值定位的必要性:

大裝置的支撐,使大模型訓練更高效、推理成本更低;提升模型服務的效率,確保訓練和推理能力始終保持在行業領先水平;模型與業務緊密結合,聚焦關鍵領域,突破行業落地的瓶頸,實現高價值商業變現。