回顧DeepSeek“開源周”:越是開源,越能擴大生態

2月最後一天,DeepSeek開源周正式收官。連續五天,這家公司刷新自己在大模型開源生態中的技術地位。

五天一共對應五個開源代碼庫,分別是FlashMLA,DeepEP,DeepGEMM,DualPipe和EPLB對應的優化並行策略,以及推進器3FS和輕量化數據處理工具Smallpond。在Github,這些項目累計獲得星星數量接近2.8萬顆。

首日的FlashMLA最爲重磅。DeepSeek對其核心介紹是,這是一款面向Hopper GPU(英偉達第九代GPU架構)的高效MLA解碼內核(MLA decoding kernel ),並針對可變長度序列的服務場景進行了優化。

MLA——Multi-Head Latent Attention(多頭潛在注意力機制)是DeepSeek在V2時期的重要創新,也是降本的關鍵。FlashMLA則是針對MLA在解碼階段的注意力加速器。

用戶輸入的自然語言數據序列往往長短不一,如果只按照傳統注意力機制會造成算力資源浪費。FlashMLA可以針對不同token長度動態調配計算資源。總體上來說,這還是DeepSeek就H800持續壓榨其硬件性能利用效率——這也是DeepSeek素來最擅長的能力之一。

次日的DeepEP核心目的仍在於拉昇GPU效能。這是一個專爲專家混合(MoE)和專家並行(EP)量身定製的通信庫。

簡單而言,它通過建立一個全對全的中間系統,高效協同專家模型之間的通信,實現高吞吐量和低延遲的兼顧,並且支持FP8等低精度操作以降低計算資源消耗,最終大幅提升了大模型的訓練和推理效率。

第三天的DeepGEMM來自DeepSeek-V3,是一個可用於FP8精度的通用矩陣乘法(GEMM)加速庫。

通用矩陣乘法是大模型提高訓練效率的重要一環,但往往還是會造成巨大的計算量。DeepGEMM的目的是在降低消耗、提升速度的同時,還能保持計算的準確度。它先是利用FP8這一低精度但快速的方式完成計算,再利用英偉達的CUDA核心對其進行精加工。

事實上,英偉達基於CUDA架構打造的CUTLASS也是用於加速這類計算,但更適用於通用且強性能的矩陣加速庫。而DeepGEMM不僅在性能上可以與專家調優的庫相當,而且更加輕量化,僅用300行代碼就實現,且安裝時無需編譯,通過輕量級JIT模塊就可在運行時編譯所有內核。

第四天是由DualPipe和EPLB構成的優化並行策略。

DualPipe是一種雙向並行算法,簡單而言,它以“雙向”的調度方式,在參數翻倍的情況下,大幅減少了流水線並行過程中,因爲不同“工序”進程快慢而產生浪費效率的“氣泡”,也就是計算和通信階段的等待時間。

EPLB是一種“專家並行負載均衡器”,可對MoE架構中的高負載專家複製爲“冗餘專家”,以分擔同類任務計算量,並利用“啓發式分配算法”,將高負載專家分配到低負載顯卡上,以優化GPU之間的負載均衡。它還會盡量將需要高度協同的專家放置在同一節點上,以提高通信效率。

最後一天是3FS(Fire-Flyer File System)以及數據處理框架Smallpond。

3FS是一個可實現高速數據訪問,提高AI模型訓練和推理效率的分佈式文件系統。它相當於利用SSD(用於數據存儲與加載、實現快速數據交換等)以及RDMA(支持分佈式訓練通信和高性能網絡架構等)建立一個共享存儲層,使模型對於資源調取和數據傳輸,都更爲極速、自動化且高吞吐。

在此基礎上,Smallpond可以進一步優化3FS的數據管理能力,能夠處理PB級別(1PB 數據量大約可以存儲20萬部5GB大小的高清電影)的數據。

需要指出的是,DeepSeek開源周的所有內容,幾乎都是“開箱即用”,團隊均提供了相對完整細緻的操作指南。

一名AI大模型行業人士對界面新聞記者表示,這五項開源內容的重要意義相當,都是針對訓練效率的優化細節。不過他指出,DeepEP可能相對突出,因爲對MoE的提升尤爲明顯。

另一名關注大模型行業技術進展的投資人同樣表示,這些內容均可以視爲DeepSeek在AI Infra層的優異表現。

他認爲,針對AI Infra的優化措施其實存在於任何一家AI大模型公司,而DeepSeek之所以選擇開源,除了可以訴諸其技術理想外,一個核心目的還是在於讓業界能夠更好部署和使用其開源模型,建立其更大的開源生態。“從戰略上來說,這也是一個很明確的先後步驟。”

此外,對於DeepSeek開源周的動作,還有一種討論聲音是它看起來與英偉達的硬件生態綁定更深了。

但前述受訪者認爲這是一條合理路徑。他指出,如果是針對國產硬件生態,DeepSeek還可以另起一套代碼庫來適配,兩者不是非此即彼的關係。與此同時,當DeepSeek具備的是面向全球大模型的生態視野,針對英偉達GPU展示優化能力也是一種必要動作。

事實上,在DeepSeek選擇開源這一週,海內外大模型發佈動作頻繁且熱鬧,其中包括騰訊新一代快思考模型混元Turbo S,阿里通義千問推理模型QwQ-Max預覽版,以及Anthropic的Claude 3.7 Sonnet,和OpenAI萬衆矚目的GPT-4.5。

出人意料的是,GPT-4.5並未激起巨大水花,甚至落下一衆令人失望的評價。除了各方面基準測試超過4o,並在準確度和幻覺率上有了明顯優化,GPT-4.5沒有像從前新模型發佈那樣讓人“震撼”的表現。

唯一的震撼或許在於定價。GPT-4.5每百萬tokens輸入爲75美元,輸出爲150美元,價格分別達到了DeepSeek-V3的280倍及150倍。

OpenAI CEO Sam Altman在X平臺上表示,GPT-4.5將是其最後一個非鏈式思維模型,未來發布的GPT-5將是一個包含o3在內的多種技術混合模型。這儼然讓GPT-4.5的存在感降到更低。

回到DeepSeek的開源動作上,到目前爲止,這家公司在絕大多數的算法和工程細節上都毫無保留。但它仍然將一些難以複製的核心能力牢牢掌握在自己手上,例如對於模型訓練深層次的know how,以及訓練數據方面的細節,這是達成DeepSeek式創新的核心秘密所在。