DeepSeek、月之暗面同一天更新論文,核心都是注意力機制
2月18日,DeepSeek和月之暗面幾乎同時發佈了他們各自最新的論文,而主題直接“撞車”——都是挑戰Transformer架構最核心的注意力機制,讓它能更高效處理更長的上下文。
更有趣的是,兩家公司技術派明星創始人的名字出現在各自的論文和技術報告裡。
與此前人們津津樂道的算法創新相比,DeepSeek這一次把手伸向了最核心的注意力機制(attention)的改造上。
Transformer是當下所有大模型繁榮的基礎,但它的核心算法注意力機制依然有先天問題:拿讀書做比喻,傳統的“全注意力機制”爲了理解和生成,會閱讀文本里的每個詞,並拿它與其他所有詞作比較。這樣導致處理文本越長算法越複雜,技術越卡,甚至崩潰。
DeepSeek最新發布的論文提到,NSA是一種與硬件一致且本機可訓練的稀疏注意力機制,用於超快速的長上下文訓練和推理。通過針對現代硬件的優化設計,NSA加快了推理速度,同時降低了預訓練成本,而不會影響性能。在一般基準測試、長上下文任務和基於指令的推理上,它的表現與完全注意力模型相當甚至更好。
在月之暗面的論文裡,也提出了一個在覈心思想上非常一致的架構:MoBA。MoBA裡有個像 “智能篩選員”一樣的門控網絡,它負責挑選與一個“塊”最相關的 Top-K 個塊,只對這些選中的塊計算注意力。
楊植麟最初創辦月之暗面受到關注的一個重要原因,是他的論文影響力和引用量,但K1.5論文之前,他最後一篇論文類的研究停留在2024年1月。
樑文鋒雖然作爲作者出現在DeepSeek最重要的模型技術報告裡,但這些報告的作者名錄幾乎相當於DeepSeek的員工名錄,幾乎所有人都列在裡面。而NSA的論文作者則只有幾人。
由此也可以看出兩家公司創始人對公司的重要性,並提供對深入瞭解DeepSeek和月之暗面技術路線的路徑。