顯著優化推理體驗...華為發表AI黑科技UCM 9月正式開源

華爲發表AI黑科技UCM,9月正式開源。(路透)

華爲12日發表AI推理黑科技UCM(推理記憶數據管理器),可大幅降低推理時延與成本,並大幅提升推理效率。

華爲12日舉行新產品發表會,正式發表AI推理創新技術UCM,華爲數字金融軍團CEO曹衝在發表會中表示,高延遲、高成本是當下AI推理領域發展的主要挑戰,UCM融合多類型緩存加速演算法工具,分級管理推理過程中產生的KV Cache記憶資料,可擴大推理上下文窗口,以實現高吞吐、低時延的推理體驗,降低每Token推理成本。

華爲表示,UCM通過層級化自我調整的全域首碼緩存技術,可實現任意物理位置、任意輸入組合上的KV首碼緩存重用,在多輪對話、RAG知識檢索等場景中直接調用KV緩存資料,避免重複計算,使首Token時延最大降低90%。

另外,UCM可根據記憶熱度在HBM、DRAM、SSD等存儲介質中自動分級緩存,同時融合多種稀疏注意力演算法,實現存算深度協同,使長序列場景下TPS(每秒處理Token數)提升2-22倍,降低每Token推理成本。

此外,UCM通過動態KV逐層卸載、位置編碼擴展、Prefill稀疏等組合技術,將超長序列Cache分層卸載至外置專業存儲,利用演算法突破模型和資源限制,實現10倍級推理上下文窗口擴展。

華爲指出,中國互聯網企業在AI領域的投資規模僅爲美國的十分之一,大陸國內大模型的推理體驗與海外相比仍存在差距—而推理體驗的不足會直接導致用戶流失,進而減緩企業的投資節奏;投資收縮又會使企業難以承擔高昂的推理成本,反過來進一步限制推理體驗的提升,形成惡性循環。UCM能夠在算力基礎設施投入保持不變的前提下,顯著優化推理體驗。

據瞭解,華爲UCM已率先在中國銀聯的客戶之聲、行銷策劃、辦公助手等三大業務場景中,開展智慧金融AI推理加速應用試點,並已取得一定成果。

隨着AI應用向各類實際場景深度滲透,使用者規模和請求量急劇攀升,以火山引擎爲例,今年5月日均Token調用達16.4兆,較2024年同期激增137倍。巨大的Token處理量意味着高昂運營成本—伺服器維護、電力消耗持續攀升;而保障流暢推理體驗又需加大算力投入。如何在兩者間找到平衡,成爲全行業亟待破解的難題。

另外,華爲計劃今年9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,並共享給業內所有Share Everything(共用架構)存儲廠商和生態夥伴,開源是希望行業內更多人(企業)一起推動推理框架、標準的形成,加速發展的過程。