全國政協委員張雲泉:國內智算集羣效率普遍偏低,需突破“算力圍城”

“政協委員提案不是‘一錘子買賣’,不光要四處調研發現問題、寫成提案指出問題,還要持續跟進解決問題。”全國政協委員、中國科學院計算技術研究所研究員張雲泉用這句話道出了他連續幾年聚焦算力基礎設施建設而提交提案的初心。

作爲算力領域的專家,張雲泉今年再次圍繞算力設施建設與智算產業發展,提案呼籲加快高端算力設施建設,提升算力使用效率,以應對人工智能大模型快速發展所帶來的“算力圍城”困局。“前兩年,我的提案關注‘東數西算’宏觀佈局,今年則要聚焦‘超智融合’趨勢下的發展難題。”張雲泉表示道。

對於張雲泉而言,一份好的提案不只是寫出來的,還是跑出來的。在過去一年的時間裡,張雲泉走訪了衆多算力中心及相關企業,對於當下算力產業發展狀況進行了敏銳洞察。“我們可以看到伴隨DeepSeek等AI開源大模型涌現,大模型在各個行業的應用不斷變多,這對算力基礎設施建設提出新需求。而當前算力市場存在供需性矛盾:‘算力結構單一、高端算力緊缺’。而算力基礎設施與國際領先水平存在代際差異,制約了大模型迭代創新速度。”

談及算力建設短板問題,張雲泉直言:“我認爲這種供需失衡,首先反映在規模上。”他介紹,目前國內公開的主要智算中心單體規模僅在100-1000Pflops之間。高端智算中心要求具備萬卡級分佈式訓練能力,性能需達到10Eflops@BF16以上,且機架功率密度達到40-100kW。

此外,智算中心算力結構單一,基礎工具鏈不完善,通用性不強,利用率不高則進一步加劇了供需矛盾。“部分智算中心往往只考慮低精度訓練算力需求,未結合行業場景考慮混合精度融合算力需求,導致通用性不強;而國產高性能可擴展並行訓推編程框架和優化工具鏈的缺失,則導致國產大規模智算集羣計算效率普遍偏低,可擴展性不高。”張雲泉說。

張雲泉還提及另一個產業痛點“大模型與產業應用脫節”。“國內大模型百花齊放是好事。不過在此過程中,有些大模型研製單位只注重訓練效果、參數規模,而忽視模型落地到產業應用時的效率和不同場景應用效果,難以爲實體產業發展服務。”

對於算力設施建設與智算產業發展的諸多痛點,張雲泉在新提案中呼籲,一方面從算力供給側,引導高端算力發展走上“超智融合”技術路線,建設大算力、全精度、高互聯的高端智算中心,並發展先進存力,促進產業界均衡配置算力與存力資源;另一方面從算力應用側,重點支持頭部基礎大模型企業,打造世界領先開源開放主權級基礎通用大模型,鼓勵開放更多應用場景。

張雲泉介紹,超智融合技術也是近年來全球計算領域熱點話題,其核心思想是將超算與智算的能力相結合,以滿足在人工智能高速發展背景下的各行業多元算力需求。而如國家超算互聯網等算力平臺,正成爲國內“超智融合”技術演變的重要依託。

對於如何走好“超智融合”,張雲泉提出多項具體建議:

一、出臺高端智算中心建設管理辦法,建立智算中心分級准入標準,支持市場主體建設高端智算中心,新建智算中心必須通過大模型訓練或推理能力評測,不符合要求的不予批准建設。

二、集中資源,重點支持大模型領軍企業。加強統籌佈局,堅定不移培育“領跑者”,打造世界領先的開源開放主權級基礎通用大模型。

三、建設國家級大算力集羣,引入先進算力調度、分配、優化和管理技術,提高利用率。積極引導基於全精度、大算力、高互聯國產芯片,構建新一代超智融合國家級算力中心。

四、設立“智算工具鏈產業基礎再造”和“超智融合”專項研發基金,通過產學研協同創新,打造開放共享的智算工具鏈和超智融合生態。

作爲全國政協十四屆的委員,張雲泉已連續多年建言算力設施建設,2023張雲泉提出合理規劃算力網建設相關提案,建議建設國家級算力調度和交易平臺,該提案得到了相關部門的正式答覆和辦理。

爲何對算力設施建設如此執着?他笑道:“提案就像種樹,不能只播種不養護。既然成爲了政協委員,就得爲數字中國栽種好算力這棵‘大樹’!”

本文源自:觀網財經