華爲,正式發佈!計劃於9月開源
8月12日,華爲正式發佈AI推理創新技術UCM(推理記憶數據管理器)。據瞭解,作爲一款以KV Cache爲中心的推理加速套件,UCM融合了多類型緩存加速算法工具,分級管理推理過程中產生的KV Cache記憶數據,可擴大推理上下文窗口,實現高吞吐、低時延的推理體驗,降低每Token推理成本。該技術已率先在中國銀聯“客戶之聲”“營銷策劃”“辦公助手”三大業務場景中,開展智慧金融AI推理加速應用試點,並已取得成果。
華爲計劃於2025年9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,並共享給業內所有Share Everything(共享架構)存儲廠商和生態夥伴。
圖片來源:每日經濟新聞 資料圖
據悉,UCM可根據記憶熱度在HBM、DRAM、SSD等存儲介質中實現按需流動,同時融合多種稀疏注意力算法實現存算深度協同,使長序列場景下TPS(每秒處理token數)提升2至22倍,從而降低每個Token的推理成本。
Token是AI模型中的基本數據單位。在訓練過程中,AI大模型會學習標記Token之間的關係,從而執行推理並生成準確、相關的輸出。
數據顯示,國外主流AI大模型的單用戶輸出速度已進入200 Tokens/s區間(時延5ms),而我國主流AI大模型的單用戶輸出速度普遍小於60 Tokens/s(時延50至100ms)。
每日經濟新聞綜合自公開信息