發表AI推理創新技術UCM 華爲:可望降低對HBM的依賴
華爾街見聞報導,華爲推出的UCM是一款以KV Cache(鍵值記憶體)爲中心的推理加速套件,融合多類型快取加速演算法工具,透過分級管理推理過程中產生的KV Cache記憶數據,擴大推理上下文窗口,實現高吞吐、低時延的推理體驗。
推理體驗直接關係到使用者與AI互動時的感受,包括回答問題的延遲、答案的準確度以及複雜上下文的推理能力等面向。UCM技術透過優化KV Cache記憶資料管理,能夠降低每Token的推理成本。
HBM是解決「資料搬運」的關鍵技術。當HBM不足時,使用者使用AI推理的體驗會明顯下降,導致出現任務卡頓、反應慢等問題。華爲此技術突破可望緩解這一瓶頸。
UCM可根據記憶熱度在HBM、DRAM、SSD等儲存媒體中實現按需流動,同時融合多種稀疏注意力算法實現存算深度協同,使長序列場景下TPS(每秒處理Token數)提升2至22倍,從而降低每個Token的推理成本。
這項技術的發表正值AI產業從「追求模型能力的極限」轉向「追求推理體驗的最優化」的關鍵時間點,推理體驗直接關聯用戶滿意度和商業可行性,成爲衡量模型價值的重要標準。
華爲此與中國銀聯共同發佈AI推理最新應用成果,將完善中國AI推理生態的關鍵部分。華爲計劃於2025年9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,並共享給業內所有Share Everything(共享架構)存儲廠商和生態夥伴。