☰

華爲，正式發佈！計劃於9月開源

8月12日，華爲正式發佈AI推理創新技術UCM（推理記憶數據管理器）。據瞭解，作爲一款以KV Cache爲中心的推理加速套件，UCM融合了多類型緩存加速算法工具，分級管理推理過程中產生的KV Cache記憶數據，可擴大推理上下文窗口，實現高吞吐、低時延的推理體驗，降低每Token推理成本。該技術已率先在中國銀聯“客戶之聲”“營銷策劃”“辦公助手”三大業務場景中，開展智慧金融AI推理加速應用試點，並已取得成果。

華爲計劃於2025年9月正式開源UCM，屆時將在魔擎社區首發，後續逐步貢獻給業界主流推理引擎社區，並共享給業內所有Share Everything(共享架構)存儲廠商和生態夥伴。

圖片來源：每日經濟新聞資料圖

據悉，UCM可根據記憶熱度在HBM、DRAM、SSD等存儲介質中實現按需流動，同時融合多種稀疏注意力算法實現存算深度協同，使長序列場景下TPS（每秒處理token數）提升2至22倍，從而降低每個Token的推理成本。

Token是AI模型中的基本數據單位。在訓練過程中，AI大模型會學習標記Token之間的關係，從而執行推理並生成準確、相關的輸出。

數據顯示，國外主流AI大模型的單用戶輸出速度已進入200 Tokens/s區間（時延5ms），而我國主流AI大模型的單用戶輸出速度普遍小於60 Tokens/s（時延50至100ms）。

每日經濟新聞綜合自公開信息

華爲，正式發佈！計劃於9月開源

相關資訊