華爲發佈AI推理新技術 將於今年9月正式開源

《科創板日報》8月12日訊(記者 黃心怡)華爲今日發佈AI推理創新技術UCM(推理記憶數據管理器)。作爲一款以KV Cache爲中心的推理加速套件,其融合了多類型緩存加速算法工具,分級管理推理過程中產生的KV Cache記憶數據,擴大推理上下文窗口,以實現高吞吐、低時延的推理體驗,降低每Token推理成本。

據悉,華爲計劃於2025年9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,並共享給業內所有Share Everything(共享架構)存儲廠商和生態夥伴。

IDC預測,到2027年中國智能算力中,推理算力佔比將從2023年的41%左右上升到72.6%左右。中國信息通信研究院人工智能研究所平臺與工程化部主任曹峰表示,大模型推理需求爆發。一方面大模型服務調用量、推理計算量將翻倍,另一方面大模型推理算力供給將超過訓練,基礎設施重心將逐步向推理偏移。

不過,當前AI推理應用落地過程中存在推不動、推得慢、推得貴等問題。華爲數據存儲產品線總裁周躍峰舉例:中國互聯網大模型的首Token時延普遍慢於海外互聯網頭部的首Token時延,海外頭部大模型的推理吞吐率也要遠高於中國。因此,如何改進推理系統的效率和體驗是重要課題。這也是華爲此次推出UCM推理記憶數據管理器的原因。

據介紹,UCM推理記憶數據管理器已經在中國銀聯的客戶服務、營銷策劃、辦公會議等業務場景中,開展AI推理加速應用試點。

華爲數據存儲產品線副總裁、閃存領域總裁謝黎明表示,從銀行業來看,不管是生產環境的投研分析,還是輿情分析也好,都會涉及到非常多的長序列輸入。“比如一份投研報告就是上兆級別,精準營銷所需要輸入的上下文也是長序列,所以推不動這個問題經常出現。其次是推得慢的問題,核心就是併發上不去,上去之後每Token時延特別長。另外推得貴,原因是需要耗費大量的算力。”

華爲數據存儲產品線AI存儲首席架構師李國傑進一步解釋,不管是行業調研報告、公司財務信息以及其他公開信息,都是超長上下文的多源信息匯聚。隨着邁向Agentic AI(代理式AI),這些信息會拆成很多步,逐步地深度挖掘,最終給出一個專業的趨勢判斷和報告。這對顯存、計算量都會有很大的壓力。

推理體驗和推理成本,將成爲未來AI行業化落地的一大阻礙。“到了Agentic AI時代,Token消費相比以前是百萬級的,成本過高意味着落地就沒有了一個基本的前提,沒有人用得起。”謝黎明稱。

談及AI的發展趨勢,李國傑認爲,模型智能轉向數據智能,這在專業領域已基本成爲共識。未來,華爲會基於UCM構築更多的Agentic AI能力,以及多模檢索和數據湖的能力等等。

“從GPT5的發佈可以看到,傳統的Scaling Law模式已經遇到瓶頸。從應用需求的角度來講,客戶開始關注AI的商業循環和商業變現,更關注體驗。從技術驅動的角度,當模型的智能水平遇到瓶頸,會系統化地轉向數據智能。因爲其本質原因是缺少高質量數據,大量用AI合成數據、數據荒以及數據質量的問題,都會成爲新的產業研究焦點。”

華爲計劃於今年9月份開源UCM,目前已有訊飛等生態夥伴加入。李國傑透露,“很多政府行業、金融行業、製造行業等客戶,已經使用起來。我們會與更多的基礎設施和生態夥伴一起共建,也會與更多具有非常典型性或者行業性的客戶,一起共建。”