華泰證券:AI推理算力需求增長或快於算力單位成本下降
華泰證券發表研究報告稱:推理算力需求增長或快於算力單位成本下降。總算力支出受到算力需求與成本的共同影響。隨AI應用用戶數量的不斷增長及Agent的滲透不斷提升,推理端算力需求不斷上升;同時,由於硬件的迭代與infra算法的不斷改進,模型推理的單位成本不斷下降,模型推理價格目前已下降到2023年初的1/100以下,目前市場對未來推理端算力支出節奏存在分歧。本報告旨在提供一個推理算力需求從用戶滲透到Token調用、再到硬件支出的分析框架,我們通過對Google與微軟(OpenAI)未來Token調用量、算力總需求和未來硬件支出節奏的測算,得出結論:推理算力需求增長速度快於單位算力成本的降低。我們持續看好推理端算力需求的加速增長。
海內外大廠Token調用量增長迅速,推理算力需求快速增長
海外CSP廠商來看,根據2025年5月Google I/O大會數據,Google的Token月均調用量從2024年4月的9.7萬億增長至2025年4月的480萬億,增長50倍。根據微軟FY2025年第三季度電話會數據,Azure AI基礎設施在2025年一季度處理了超100萬億Token,較去年同期增長5倍,其中3月份單月Token調用量達50萬億。國內互聯網大廠來看,2025年5月字節火山引擎Token日均調用量爲16.4萬億(月均508T),是2024年5月的137倍。認爲,海內外大廠Token調用量已出現明顯加速拐點,推理端算力需求快速增長。
考慮到單位算力成本下降後,Google算力支出仍有望高增
AI搜索的滲透是Google Token調用量增長的主要驅動,通過對AIOverview、AIMode、Gemini 2C應用和其他推理需求的測算,我們預測Google 25年第二季度Token總量有望達到2009萬億,環比增長223%,相較於2024年第二季度的71萬億Token增長接近30倍。單位算力成本=單位價格/算力,受軟件算法優化與新版本芯片的部署影響,單位算力成本呈現下降趨勢,根據我們測算,4、5、6月單位算力成本分別環比下降14%/13%/13%,下降幅度小於4、5、6月算力需求提升的環比增速56%/38%/32%。根據我們測算結果,Google 2025年二季度推理算力開支仍有望環比增長100%以上。
用戶使用量與DeepResearch的滲透有望驅動微軟算力需求高增
微軟Token調用量的提升主要源於OpenAIChatGPT網頁的訪問量上升及Deep Research功能的滲透。考慮到以上兩因素的影響,在我們的預測框架下,微軟2025年第二季度的總Token調用量有望達到205萬億,環比增長約100%。算力成本角度,算法優化帶來模型浮點運算利用率的提升,即同樣數量的芯片能帶來更多的有效算力。根據我們測算,考慮到算法優化帶來的算力成本下降後,微軟年底的推理算力卡需求量仍約爲3月的兩倍有餘,我們預測微軟的算力硬件需求仍將維持高速增長。