華爲發佈AI黑科技UCM,9月正式開源
AI時代下,推理技術關係用戶與AI交互的體驗,包括回答問題的時延、答案的準確度以及複雜上下文的推理能力等,在此背景下,華爲最新推出AI推理黑科技UCM(推理記憶數據管理器),可大幅降低推理時延與成本,並大幅提升推理效率。
8月12日,華爲舉行發佈會,正式發佈AI推理創新技術UCM。
據瞭解,目前,國外主流模型的單用戶輸出速度已進入200 Tokens/s區間(時延5ms),而我國普遍小於60 Tokens/s(時延50-100ms),如何解決推理效率與用戶體驗的難題迫在眉睫。
“高延遲、高成本是當下AI推理領域發展的主要挑戰。”華爲數字金融軍團CEO曹衝在會上表示。
華爲方面介紹,作爲一款以KV Cache爲中心的推理加速套件,UCM融合了多類型緩存加速算法工具,分級管理推理過程中產生的KV Cache記憶數據,可擴大推理上下文窗口,以實現高吞吐、低時延的推理體驗,降低每Token推理成本。
在具體技術實現路徑方面,華爲相關負責人表示,UCM通過層級化自適應的全局前綴緩存技術,可實現任意物理位置、任意輸入組合上的KV前綴緩存重用,在多輪對話、RAG知識檢索等場景中直接調用KV緩存數據,避免重複計算,使首Token時延最大降低90%。
另外,UCM可根據記憶熱度在HBM、DRAM、SSD等存儲介質中自動分級緩存,同時融合多種稀疏注意力算法,實現存算深度協同,使長序列場景下TPS(每秒處理Token數)提升2—22倍,降低每Token推理成本。
此外,UCM通過動態KV逐層卸載、位置編碼擴展、Prefill稀疏等組合技術,將超長序列Cache分層卸載至外置專業存儲,利用算法突破模型和資源限制,實現10倍級推理上下文窗口擴展。
華爲相關負責人表示,當前,中國互聯網企業在AI領域的投資規模僅爲美國的十分之一。與此同時,國內大模型的推理體驗與海外相比仍存在差距——而推理體驗的不足會直接導致用戶流失,進而減緩企業的投資節奏;投資收縮又會使企業難以承擔高昂的推理成本,反過來進一步限制推理體驗的提升,形成惡性循環。UCM能夠在算力基礎設施投入保持不變的前提下,顯著優化推理體驗,推動AI推理進入“體驗提升—用戶增長—投資加大—技術迭代”的商業正循環。
記者瞭解到,華爲UCM已率先在中國銀聯“客戶之聲”“營銷策劃”“辦公助手”三大業務場景中,開展智慧金融AI推理加速應用試點,並已取得一定成果。
“AI時代後,Token經濟時代到來,目前推理過程仍存不少挑戰,如何改進推理系統的體驗和效率是一個重要的話題。與中國銀聯合作落地UCM,對於AI推理的效率來說是一個有效的突破。”華爲副總裁、數據存儲總裁周躍峰表示。
隨着AI應用向各類實際場景深度滲透,用戶規模和請求量急劇攀升,模型分析和生成的Token數更呈現指數級增長態勢,最大化單Token智能承載力、優化其成本成爲廠商核心目標,Token經濟時代來臨,訓練、推理效率與體驗量綱都以Token爲表徵。以火山引擎爲例,2025年5月日均Token調用達16.4萬億,較2024年同期激增137倍。巨大的Token處理量意味着高昂運營成本——服務器維護、電力消耗持續攀升;而保障流暢推理體驗又需加大算力投入。如何在兩者間找到平衡,成爲全行業亟待破解的難題。
在此背景下,華爲計劃於2025年9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,並共享給業內所有Share Everything(共享架構)存儲廠商和生態夥伴。
“爲什麼要開源,是希望行業內更多人(企業)一起推動推理框架、標準的形成,這是一個大家共創標準、共同推動推理領域加速發展的過程。”華爲相關負責人表示。
責編:陳麗湘
校對:劉榕枝