破解金融AI模型“推不動”等難題,“以查代算”提供技術出路

人工智能已步入發展深水區。記者獲悉,當前AI(人工智能)的發展正從以模型訓練爲核心的階段,逐步邁入訓練與推理並重,甚至推理佔比顯著提升的新階段。

訓練是大模型的學習過程,目標是構建或優化模型參數;而推理則是大模型的應用過程,目標是應用已訓練好的模型。根據華爲公司提供的數據,隨着Agent(智能體)應用的普及,當前推理算力需求已超過訓練。GPT-5開放首周20億次/分鐘,70%的請求爲複雜任務推理(如代碼生成、多步規劃);而國內火山引擎的日均Token(令牌)調用量已達16.4萬億,其中70%以上來自線上推理而非訓練。

然而,儘管推理需求逐步旺盛,但國內AI推理能力的發展仍受限於AI基礎設施基礎弱、投資少,以及算力卡閹割、算力卡漲價、HBM(高帶寬內存)漲價等一系列因素。

記者獲悉,當前金融領域AI推理能力的瓶頸開始顯現。華爲數據存儲產品線AI存儲首席架構師李國傑表示,從銀行業來看,核心有三個問題:一是“推不動”,投研分析、輿情分析等場景會涉及到較多的長序列輸入,比如一份投研報告更是上兆級別,所以“推不動”的問題經常出現;二是“推得慢”,核心就是併發上不去,上去之後每Token時延特別長;三是“推得貴”,原因是需要耗費大量的算力做KV(鍵對值)的重複計算。

8月12日,《每日經濟新聞》記者在上海舉行的“2025金融AI推理應用落地與發展論壇”上了解到,市場越來越關注模型推理能力的深度優化——讓推理過程跑得更快、成本更低、效果更好。如今,通過藉助外部存儲的“以查代算”方案,正在爲普通企業突破AI推理瓶頸提供低成本的破題思路。

“以查代算”爲AI推理效率與成本找到平衡點

如何讓AI推理能力圍繞“成本—性能—效果”這個“不可能三角”進一步演進,成爲困擾業界的問題。

《每日經濟新聞》記者在論壇上了解到,目前業內已經形成的一種解決方案是“以查代算”,即通過記憶此前已推理過的內容,降低重複推理,從而提高整體的推理效率。不過這種方案儘管降低了對算力的依賴,卻對存儲提出了更高要求。

此前,行業的推理能力高度依賴顯卡的HBM,其成本讓普通企業不堪重負。爲了降低對HBM的依賴,業界開始探索DRAM(動態隨機存取存儲器)、SSD(固態硬盤)等外部存儲方案以節省算力和帶寬。正如清華大學章明星介紹:“GPU(圖形處理器)在算力和帶寬兩個維度上肯定非常好,但是DRAM、SSD等在容量維度上成本很低,如果能夠想辦法利用容量維度,儘可能地節省對算力和帶寬的開銷,就可以大幅度降低整體系統的成本。”

記者獲悉,業界已經出現了諸多通過優化存儲分配來提升推理效率的案例。例如,英偉達推出了Dynamo推理方案架構,通過分佈式的KV緩存管理器,提升上下文、吞吐率等;華爲發佈了UCM(推理記憶數據管理器,Unified Cache Manager)推理記憶數據管理器,可以分級管理推理過程中產生的KV Cache(即“記憶數據”)。

以後者爲例,依託UCM層級化自適應的全局前綴緩存技術,系統能直接調用KV緩存數據,避免重複計算,顯著降低首Token時延。UCM還通過分層卸載超長序列Cache(緩存)至專業存儲,並創新算法擴展推理上下文窗口,滿足長文本處理需求。同時,UCM具備智能分級緩存能力,可根據記憶熱度在HBM、DRAM、SSD等存儲介質中實現按需流動,並融合多種稀疏注意力算法,實現存算協同,大幅提高長序列場景下的TPS(每秒處理Token數)。

值得一提的是,在論壇現場,華爲宣佈其UCM將於今年9月正式開源,將通過開放統一的南北向接口,適配多類型推理引擎框架、算力及存儲系統。此外,英偉達官網顯示,前述Dynamo其實也是一個開源的模塊化推理框架。

金融領域率先獲得應用

記者在論壇上獲悉,上述UCM技術已率先在金融典型場景進行了試點應用。華爲數字金融軍團CEO曹衝介紹,華爲和中國銀聯在客戶之聲、智慧營銷和會議助手等場景,已驗證了UCM技術的性能表現。

“金融級應用需微秒級響應,而卡頓、延遲直接影響風控與交易安全。”曹衝表示,金融場景對AI推理效能有着更高的要求。而UCM技術之所以選擇在金融場景率先試點落地,李國傑解釋道:“金融在IT信息化以及其他技術賦能行業的建設中一直走在前列。不管是投資上,還是場景需求上,金融領域都有大量數據掘金的機會。例如把投資數據、財務數據、企業信貸數據等餵給AI,做數據分析。”

在現場,中國銀聯智能化創新中心副總經理楊燕明透露了上述方案的應用效果。“經過一系列優化,我們具備了幾個關鍵能力:一是多輪對話場景中首Token的延遲降低了60%,長序列的場景可以倍數級擴展推理長度,吞吐量達到了2~5倍的提升。”

記者瞭解到,就當前階段而言,這類調用外部存儲介質“以查代算”的策略,爲企業在權衡AI推理效率與成本之間提供了一種解決方案。不過,一個更值得深究的問題是,這種路徑究竟是基於HBM等成本壓力下的過渡方案,還是AI推理的長期發展趨勢?

對此,華爲數據存儲產品線副總裁、閃存領域總裁謝黎明在接受《每日經濟新聞》記者採訪時表示:“大部分數據都有一定的生命週期,會存在熱、溫、冷三種狀態。從這個角度來看,一個分層的存儲介質系統是必然的趨勢。對於面向推理加速的KV數據,也必然存在熱、溫、冷之分,我們不可能用最昂貴的熱介質來存儲所有數據。因此,必須採用多層介質來解決性能問題,同時平衡成本問題。”

華爲數據存儲產品線副總裁樊傑向記者補充道,在AI推理過程中,緩存與外置存儲分工不同,前者主要解決的是短期記憶,容量有限,但是反應速度很快;後者針對的是KV Cache的長期記憶,容量更大,相當於把知識記錄下來。他打了個比方:“人類通過積累,相較於前一代更具智慧,並不是因爲人腦變聰明瞭,而在於人類不停地把知識變成了書籍,後代通過書籍從而站在上一代人的肩膀上繼續前行。”