降低傳統路徑依賴,華爲推出AI推理新技術
8月12日,華爲在一場會議中對外推出AI推理新技術UCM(推理記憶數據管理器,Unified Cache Manager),這是一款以KV Cache和記憶管理爲中心的推理加速套件,通過推理框架、算力、存儲三層協同,優化Tokens在各業務環節中流轉的效率,以降低每Token的推理成本。
華爲公司副總裁、數據存儲產品線總裁周躍峰在演講中表示,AI時代,模型訓練、推理效率與體驗的量綱都以Token數爲表徵,Token經濟已經到來。“但在一定時間內推理的Token數上,中國頭部互聯網公司與海外頭部互聯網公司仍有差距。”
根據華爲會上公佈的數據,國外主流模型的單用戶輸出速度已進入200 Tokens/s區間(時延5ms),而我國普遍小於60Tokens/s(時延50 - 100ms),因此,如何解決推理效率與用戶體驗的難題迫在眉睫。目前,包括華爲在內,各大科技企業都會在調度KV Cache基礎上,研發優化推理過程的技術。
以高帶寬內存(HBM)爲例,在AI推理進程中,本應是數據順暢流轉的 “高速通道”,但現實是資源常常緊缺。一旦HBM資源不足,AI推理便會出現任務卡頓、響應遲緩等問題。UCM的研發方向主要在於不再單純依賴HBM這一 “獨木橋”,而是在存儲層面構建起一個多層級、可靈活調配的資源體系,使得推理過程中的數據能夠在不同存儲介質間合理流動,充分利用各級存儲的優勢。
根據華爲的測試驗證,UCM可將首Token時延最高降低90%,系統吞吐最大提升22倍,實現10倍級上下文窗口擴展。
但從技術上看,儘管國內廠商在AI推理的硬件層面,如算力芯片等方面取得了一定進展,但在以KV Cache爲核心的軟件體系構建上,尚未形成完整、成熟且具有廣泛適用性的解決方案。而在國外,已經有一些較爲成熟的基於KV Cache的推理加速軟件框架與工具,能夠很好地與各類硬件平臺適配。
華爲在會上表示,希望聯合產業界的力量,推進以記憶數據管理爲中心的AI推理生態。
“目前業界缺乏一套在各種場景下都能普適適用的框架、加速機制與算法,我們希望通過將部分成果開放,促進框架廠商、存儲廠商以及GPU廠商共同加速這一框架機制的成熟,最終解決當前AI行業落地過程中的效率與成本問題。”華爲數據存儲產品線AI存儲首席架構師李國傑表示,華爲計劃在今年9月正式開源UCM。
中國信息通信研究院人工智能研究所平臺與工程化部主任曹峰表示,“系統級的推理架構優化已經形成主流,但不是單點技術的突破,我們要從整個芯片級的、軟件級的,再到上層的框架級的進行協同考慮,形成整個推理架構,這也是未來產業的發展重點。”