可少買82%輝達H20晶片!阿里雲提方案解決GPU浪費

大陸科技巨頭阿里巴巴旗下阿里雲提出計算池化解決方案「Aegaeon」,該方案可解決AI模型服務中普遍存在的GPU資源浪費問題。(中新社)

AI模型發展過程不光仰賴算力增長,算力浪費問題也日益突出。大陸科技巨頭阿里巴巴旗下阿里雲提出計算池化解決方案「Aegaeon」,成功入選頂級學術會議SOSP 2025。該方案可解決AI模型服務中普遍存在的GPU資源浪費問題,大幅提升GPU資源利用率,目前其核心技術已應用在阿里雲百鍊平臺。換算下來,可幫助廠商少採購82%的輝達H20晶片。

SOSP(操作系統原理研討會)由ACM SIGOPS主辦,被譽爲計算機操作系統界的「奧斯卡」,爲計算機系統領域頂級學術會議,平均每年收錄的論文數量僅有數十篇,本屆SOSP大會上,系統軟體與AI大模型技術的融合成爲新的趨勢。

科創板日報報導,數據顯示,在阿里雲模型市場爲期逾三個月的Beta測試中,Aegaeon系統在服務數十個參數量高達720億的大模型時,所需的輝達H20 GPU數量從1,192個減至213個,削減比例高達82%。GPU用量削減82%代表企業硬體採購成本將顯著降低,這對於動輒須使用成千上萬顆GPU的大型模型服務商而言至關重要。

少數熱門模型(如阿里的Qwen)承載了絕大多數用戶請求,而大量不常被調用的「長尾」模型卻各自獨佔着GPU資源。數據顯示,在阿里雲模型市場中,曾有17.7%的GPU算力僅用於處理1.35%的請求,資源閒置嚴重。而Aegaeon系統通過GPU資源池化,打破了「一個模型綁定一個GPU」的低效模式。

報導稱,未來AI的發展將不僅依賴於硬體算力的單純增長,更需要通過系統級的軟體創新來深度挖掘現有硬體的潛力。

百度智能雲AI計算部負責人王雁鵬在去年9月曾表示,2024年大模型市場發展迅速,很多企業加大了在大模型領域的投入,在大模型訓練時遇到了一個共性問題,那就是算力利用率很低。他說,有50%算力被浪費的說法一點都不誇張,如何提升算力的有效利用率,正在成爲業界共同的努力方向。