總規模位居世界前列,中國算力建設在挑戰中加速跑

9月29日,2024中國算力大會落下帷幕,大會期間8個框架協議、9個合作協議、5個戰略協議集中籤約,總金額231.2億元。根據大會發布的《中國綜合算力指數(2024年)》,截至2024年6月,我國在用算力中心超過830萬標準機架,算力總規模246EFLOPS(FP32),位居世界前列。不過,挑戰依然存在,包括算力生態仍比較"碎片化",算力的需求與供給之間不能完全精準適配等。按工信部的計劃,將從規劃設計、創新驅動、應用培育、安全保障4個方面,穩步提升我國算力產業綜合實力,持續提升算力的賦能成效。

據中國信息通信研究院測算,截至2023年底,全球算力基礎設施總規模達到910EFLOPS(FP32),同比增長40%。美國、中國算力基礎設施規模位列前兩名,算力佔比分別爲32%、26%。

我國算力結構不斷調整,智算規模增長勢頭強勁;存力規模持續擴大,先進佔比不斷提升;運力質量顯著提升,網絡設施不斷升級。以《中國綜合算力指數(2024年)》統計的截至2024年6月的數據爲例,246EFLOPS(FP32)的總算力規模中,智能算力規模76EFLOPS,智算同比增速超過65%。

國家高性能計算機工程技術研究中心主任歷軍從產業鏈的角度介紹,到2025年底,國家超算互聯網計劃連接全國超過50家頂尖的超算中心和智算中心,提升我國算力應用水平。

站在大模型的視角,中國工程院院士劉韻潔表示,數據要素是人工智能和大模型發展的基礎,而網絡、算力、數據交換平臺和安全構成了數據基礎設施的四大支柱。面對AI未來的發展,他認爲有三大挑戰:大模型對網絡的新需求、空間計算的推廣和智能體(如人形機器人)的發展。他同時指出,當前網絡帶寬的增長速度遠低於GPU(圖形處理器)的增長速度,帶寬瓶頸逐漸顯現,這對算力傳輸提出了更高的要求。

解讀《中國綜合算力指數報告(2024)年》報告時,中國信息通信研究院院長餘曉暉也提到了挑戰,他認爲,我國算力芯片生態比較碎片化,有幾十款算力芯片,不同的芯片對應不同的開發框架、軟件棧以及算子庫等。"有了萬卡、10萬卡,不一定就能把萬卡、10萬卡的能力完全發揮出來,卡越多,故障的概率越高,怎麼能夠打造大的、穩定的算力集羣,是一項全球面臨的挑戰,需要非常多的技術創新。"

10萬卡是什麼概念?不久前,百度集團執行副總裁、百度智能雲事業羣總裁沈抖給出一組數據,要部署10萬卡集羣,在物理層面要佔據約10萬平方米的空間,相當於14個標準足球場的面積,這些服務器一天要消耗約300千瓦時的電力,相當於北京市東城區一天的居民用電量,他也提到過故障問題,"用1.6萬卡訓練Llama3時,每3小時就會出一次故障,推演到10萬卡,意味着每30分鐘就要中斷一次"。

針對算力產業發展,餘曉暉建議,優化算力佈局,加強技術構建算力互聯成網,解決需求和供給錯位問題,並圍繞技術創新和產業生態協同發展。工信部總工程師趙志國表示,工信部將從規劃設計、創新驅動、應用培育、安全保障4個方面,穩步提升我國算力產業綜合實力,持續提升算力的賦能成效。具體來看,要完善互聯互通機制,構建算力互聯程序規則、市場規則、質量檢測規則,推動形成以算力大市場體系服務統一大市場建設的發展格局。

北京商報記者 魏蔚