華爲 發表AI推理新技術UCM
大陸科技大廠華爲12日發表AI推理創新技術UCM。圖/美聯社
UCM小檔案
大陸科技大廠華爲12日發表AI推理創新技術UCM(推理記憶數據管理器),這項突破性成果有望降低大陸AI推理對HBM(高頻寬記憶體)技術的依賴,並提升大陸AI模型的推理效能。陸媒報導,這項技術預計於9月開源,爲AI產業帶來新一波變革。
華爾街見聞報導,華爲在「2025金融AI推理應用落地與發展論壇」上推出的UCM,是一款以KV Cache(KV快取)爲核心的推理加速引擎,能透過分級管理推理過程中產生的KV Cache記憶數據,擴大推理上下文,達到高吞吐量、低延遲的推理體驗,進而降低每個Token(詞元)的推理成本。
上述技術的發表正值AI產業從「追求模型能力的極限」,轉向「追求推理體驗的最優化」的關鍵時刻,推理體驗直接影響使用者滿意度與商業可行性,成爲衡量模型價值的重要標準。
其中,HBM是解決「數據搬運」的關鍵技術。當HBM不足時,使用者使用AI推理的體驗會明顯下降,導致出現任務卡頓、迴應慢等問題。
UCM技術能根據記憶熱度,把數據在HBM、DRAM、SSD等不同儲存介質之中流動,並結合多種演算法,將長序列情境下的每秒處理token數(TPS),提升2倍至22倍,有效降低每個token的推理成本,進而緩解對HBM的依賴。
華爲數據存儲產品線副總裁樊傑指出,AI下一階段的突破將高度依賴高品質的產業數據,而「存力」(儲存能力)正是激發數據價值、賦能垂直產業的關鍵基礎設施。
華爲透過技術優化,推出的高性能AI儲存,能夠將小時級數據的載入時間,縮短至分鐘級,把算力集羣效率從30%提升至60%。
值得注意的是,截至7月底,國際開源社羣Hugging Face最新趨勢熱榜顯示,全球前十大開源AI模型中,有9個是陸產大模型,排名第一的是大陸「AI六小虎」之一的智譜,所發表的新一代旗艦大模型GLM-4.5。美企僅Boson AI躋身前十名。