滿血版DeepSeek免費用,7種國產AI芯片打通!一條“中國特色”算力路線浮出水面

智東西作者 ZeR0編輯 漠影

DeepSeek的爆火,讓一條“中國特色”的算力路線浮出水面。

智東西2月11日報道,今日,AI基礎設施創企無問芯穹上線了滿血版DeepSeek-R1的國產適配版,且正逐一打通DeepSeek模型在7家國產AI芯片上的部署與推理服務。

至此,無問芯穹Infini-AI異構雲大模型服務平臺成爲首個同時支持DeepSeek多芯片適配和推理的平臺。開發者不僅能一鍵獲取R1、V3模型,還將能選用來自壁仞科技、海光信息、華爲昇騰、摩爾線程、沐曦、燧原科技、天數智芯這7家國產AI芯片品牌的算力。

無問芯穹演示了在Infini-AI平臺上順暢調用DeepSeek-R1模型及沐曦C550 AI加速卡的流程和效果。

這將DeepSeek擂響的“國產算力替代”戰鼓聲,推至新的高潮。比起僅僅比拼模型精度優勢的競速賽,時代的氣運已經將AI競賽的焦點,推向一場更大組織之間完整產業鏈實力的比拼。

技驚四座的DeepSeek大模型,用一系列創新打破了AI算力的遊戲規則,降低了訓練頂尖模型所需的硬件門檻,令本土替代雄心高漲。但如何利用好DeepSeek模型帶來的算力優化啓示,高效盤活國產算力資源?這個難題依然待解。

DeepSeek引爆的國產算力狂歡能持續多久?狂歡過後,國產AI芯片的路又該如何往前走?其論文提出對未來硬件設計的發展建議對國產芯片有何參考價值?國產大模型的發展會對算力緊缺和算力閒置並存的現象產生何種影響?未來大模型訓練的比拼是否會演變爲系統能力主導?

近日,智東西獨家對話無問芯穹聯合創始人兼CEO夏立雪,深入探討在算力受限的條件下,國產模型、AI芯片及智算產業如何從DeepSeek的成功汲取經驗,通過精耕細作來降低算力成本,發揮出國內智算資源的實用價值。

▲無問芯穹聯合創始人兼CEO夏立雪

一、用有限算力訓練更大模型:解讀DeepSeek的技術秘籍,如何做到對算力的極致利用?

DeepSeek大語言模型共發佈了3個大版本,參數規模從67B擴大到236B再到如今671B,所用的訓練算力並未與模型尺寸等比例的成倍增長。

在美國芯⽚封鎖的背景下,DeepSeek通過算法、架構、⼯程的軟硬件協同優化創新,以有限算⼒、超低成本實現了性能比肩頂尖國外模型的國產模型,印證了軟硬協同這一技術路線對推動Scaling Law、突破算⼒瓶頸的有效性和巨⼤潛力。

具體表現爲兩大類方法:

一是深⼊到底層硬件的硬核優化——需要對底層的硬件有充分理解,並能夠在硬件層⾯得到⾜夠開放的軟件⽣態。典型技術包括底層PTX編程、精細流⽔線編排、極致的內存優化。

二是打通從算法到硬件的協同優化——需要對於從算法到硬件各層次都有充分理解,並具有極致的⼯程實現能⼒。典型技術包括:模型結構配合系統需求、使⽤更低精度訓練、MoE負載均衡。

依託於深厚的系統能力,DeepSeek-R1是第⼀個成功使⽤強化學習實現推理能⼒增強、達到世界最優性能,並完全開源的類OpenAI o1/o3⽅案。DeepSeek-R1-Zero更是探索出一條全新的無需人類思考數據,直接自我迭代的技術路線,對大模型技術發展起到了深刻影響。

二、DeepSeek的軟硬件優化策略,對國產算力產業有哪些啓示?

軟硬件聯合優化是連接硬件和算法的橋樑,區別於各種算法層面優化方法,和硬件本身迭代的方法,而是隨着硬件變化,讓軟件也不斷優化,或根據軟件的迭代來定義未來的底層電路實現,以更好地⽀持AI算法的運⾏。

夏立雪認爲,DeepSeek通過軟硬件協同降低算⼒成本,給國內的啓⽰在於這套⽅法論可以打破現在的閉環⽣態瓶頸。

在美國,模型、系統、芯片三個關鍵因素已經形成閉環生態。而國內多數大模型是通過國外芯⽚(如英偉達)訓練得到的,與國內的系統、芯⽚難以形成閉環。

未來,中國需要依託國產模型、國產芯⽚、國產系統,形成⾃主可控的全國產AI⽣態閉環。實現這個⽬標需要分三步⾛:

第⼀步,⾯向國外芯⽚開展極致的軟硬件協同優化,以有限算⼒實現國產模型能⼒追趕國外模型。

DeepSeek已經成功完成了第⼀步的探索,依託極致的軟硬件協同優化,⽤2048塊H800 GPU完成了V3模型的預訓練,整體訓練成本僅爲558萬美元。而海外訓練同等能⼒模型所需的成本通常⾼達數千萬美元。

第⼆步,依託國產和國外芯⽚搭建“異構”AI系統,解決算⼒缺⼝以實現國產模型能⼒超越國外模型。

據估算,OpenAI正在研發的GPT-5模型的參數量預計是GPT-4(參數量1800B)的5到10倍,⾄少需要5萬塊H100 GPU進⾏訓練。我國現有符合條件的算力儲備和供給,距離實現自主可控的下一代模型能力超越,仍有較大算力缺口,需要搭建⼀套開放⽣態的異構AI系統,推動國產芯⽚⼚商開放底層軟件⽣態,實現國產算⼒的優勢資源集聚。

第三步,構建國產芯⽚“同構”AI系統,軟硬協同垂直打通實現國產模型Scaling Law的持續發展。

國外閉環AI⽣態是⼀個同構的AI系統,核⼼競爭⼒在於CUDA-X的垂直整合能⼒。國內可通過調動跨越軟硬件和上下游的⽣態,加⼤投⼊“模型-芯⽚-系統”協同優化和垂直打通。

例如根據新⼀代模型架構來定義未來芯⽚的底層電路實現,根據國產AI系統的互聯通信⽅式來設計⾼效的MoE模型結構,充分整合上層模型、中間系統、底層芯⽚的產業鏈資源,集中優勢資源,助⼒實現國產模型Scaling Law持續發展。

在夏立雪看來,未來大模型訓練的比拼,要同時考慮算法精度、系統效率甚⾄是國家戰略。這需要沿着軟硬件協同的路徑,考慮中美差異,兼顧模型、系統與芯⽚,最終實現模型訓練和落地成本的指數級降低,去牽引更⼤範圍的產業升級。

三、國產AI芯片大練兵,用“系統自信”調動“算力自信”對於國內智算產業來說,DeepSeek是激勵,更是絕佳的商業化試煉場。

DeepSeek刺激應用需求暴漲,激發了大量推理算力需求。幾乎主流雲廠商均已宣佈提供R1模型服務,但全網還是很難找到服務不繁忙的“滿血版”。

在推理需求愈發旺盛的背景下,國產算力還有很大被利用的空間。完善國內算⼒基建迫在眉睫。

以前,國產AI芯片各行其是,各自豪言支持大模型部署,奈何觀望者衆多,實際使用者寥寥。現在DeepSeek相當於將AI芯片公司拉到同一個考場,給出統一考題:你的芯片能不能支楞起來?

於是在短短10天內,20家國產AI芯片企業摩拳擦掌,各顯其能,爭相適配或上線DeepSeek模型,以期抓住這千載難逢的增長機遇。

這反映了中國當前特有的AI基礎設施格局:有的是芯片和算力資源,只是沒被利用起來。

如何將大量不同架構的國產芯片變得能用、好用,並在使用過程中形成硬件與算法之間的正向循環?無問芯穹的策略是做異構雲,即統籌模型和算力需求,把分散在不同地方的異構算力整合起來,實現不同模型和不同硬件之間的統⼀部署和聯合優化,提供給需要算⼒和模型的客⼾。

這種將異構算力資源統一轉化成標準的算力服務、規模化複製的做法,有助於擴⼤國內⼤模型產業可⽤算⼒的範圍,提升算⼒利⽤效率。

無問芯穹由清華大學電子工程系教授、系主任汪玉發起,他帶領的清華大學納米集成電路與系統實驗室高能效計算組(NICS-EFC)早在2018 年總結出軟硬件聯合優化技術路線。無問芯穹聯合創始人、CEO夏立雪,聯合創始人、首席科學家戴國浩,均畢業於NICS-EFC;聯合創始人、CTO顏深根現任清華大學電子工程系副研究員。

這些背景使得無問芯穹吸納了AI基礎設施領域的頭部研發人才,足夠了解在⼤模型各種場景下的異構計算卡性能,並與多家硬件公司有充分信任關係。其推理加速技術Flash Decoding++通過異步⽅法實現注意⼒計算的真正並⾏,在10+種芯⽚上實現⾏業第⼀推理加速效果。

夏立雪談道,做國產芯⽚適配的主要挑戰來自硬件⽣態系統封閉且互不兼容,不同芯⽚有着不同的架構和相應⼯具鏈。

比如⽤A卡的開發者,⽆法輕易遷移⾄B卡上展開⼯作,也很難同時⽤A卡和B卡做⼤模型訓練或推理。如果⼀個算⼒集羣中存在多種芯⽚,算⼒使⽤⽅會⾯臨很多技術挑戰,⽐如不同硬件平臺適配不同的軟件棧和⼯具鏈,需要爲每種芯⽚定製和優化代碼,令開發和維護的複雜性⼤增。

去年7⽉,無問芯穹就在業內⾸次實現千卡規模的4+2種芯⽚(天數智芯、華爲昇騰、沐曦、摩爾線程與AMD、英偉達)異構混訓,集羣算力利⽤率最⾼達到97.6%,其運營算力已經覆蓋全國超13座城市。

據夏立雪分享,在不穩定的生態環境中,需要一個從算法、硬件到模型都深入理解的團隊,無問芯穹便具備這樣的全棧垂直優化能力。

無問芯穹也在持續跟進業界領先的模型架構,未來如果有更專⽤的、針對模型結構的計算芯⽚出現,則可以更好地利⽤這些專⽤計算芯⽚,軟硬協同優化,減少模型計算時間和硬件資源需求,降低⼤模型的開發應⽤成本。

結語:產業鏈⾃主可控是長遠之策,盤活國產智算資源一盤棋

今年春節,DeepSeek和《哪吒之魔童鬧海》兩匹國產黑馬,扭轉了中國企業技不如人的成見,也例證了只要實力強,自有不分國界的人鼓掌。

西方的經驗畢竟是過往,未必全對。在劈開算力封鎖的路上,DeepSeek踏出了成功的一步,接下來的“國產模型+國產算⼒+國產雲服務+國產應⽤”全國產化AI之路,還要靠產業鏈上下游的生態夥伴合力闖出來。

近期,MIT科技評論的一篇《除DeepSeek之外值得關注的4家中國AI初創公司》報道引起廣泛關注。無問芯穹是其中唯一一家專注於AI基建和算力供給、讓現有算力資源發揮出價值的公司。

DeepSeek證明了利用有限算力加上軟件和工程創新,足以做出強大的模型,也讓國際意識到中國還存在若干路徑獨特的團隊,正在探尋“用Scaling Law比拼模型精度的巨頭競賽”之外可能出奇制勝的路徑。這些路徑能夠跨越軟硬件,攢動上下游,從而產生意外的戰略奇襲。

最終,只有中國AI開發應用成本降下來、中國算力資源用起來,才能擺脫算力限制和算力閒置的掣肘,推動實現千行百業的大模型應用繁榮。