端側AI加速落地,Arm如何出招?

21世紀經濟報道記者駱軼琪 深圳報道

作爲AI Agent元年,今年不僅爲大模型廠商帶來商業化空間,也爲身處上游的芯片企業打開新機會。

近日,Arm高級副總裁兼終端事業部總經理Chris Bergey在接受21世紀經濟報道等記者採訪時指出,AI模型正變得更加智能,同時規模變得更小、能力卻更強。這是因爲所需計算量的變化以及模型本身的演進,正在推動端側AI發展。這一趨勢已經遠遠超出智能手機的範疇。

“我們開始看到AI智能體的出現,以及由實體AI衍生的新機遇。”他進一步指出,AI智能體方面,有兩個頗受關注的領域:利用AI進行編程、代碼審查和修改;利用AI提升客戶支持與客戶服務。

他舉例道,實體AI比如機器人技術,雖然目前還沒達到與人類操作水平相當的智能水平,但在接下來的一到三年內,當自主模式運行時,機器狗、配送機器人等智能設備有望能夠媲美人類的操作,這將帶來巨大機遇。

在此背景下,記者觀察發現,端側AI正在加速向更大衆化的市場輻射下沉。這也意味着,對數據中心、雲計算的需求將激增,如何更好搶佔正持續擴大的端雲協同AI芯片市場,正成爲當前的重要命題。

端側智能擴散

在本輪AI浪潮下,Chris Bergey指出,構建AI系統的基礎要素有三個關鍵。首先,從雲端到邊緣打造一個無處不在的平臺將具有極大價值。因爲很多時候AI在端側運行,但某些情況下,又希望能將工作負載轉移到雲端。因此,擁有一個高度且可移植的平臺,對於推動先進技術及產品的實現,同時爲現有產品增加新功能,都非常有價值。

第二是電力和每瓦性能。AI催生了巨大機遇,但同時也極爲耗電。已經看到數據中心的能耗從兆瓦級 (MW) 躍升至吉瓦 (GW) 級,其中超過50%實際上來自於機架和半導體設備。這意味着“每瓦性能”可能是最關鍵的衡量指標。

此外,雖然爲AI構建硬件頗具挑戰性,但軟件同樣至關重要。於是在2024年,Arm推出了AI軟件庫ArmKleidi。

Chris Bergey告訴21世紀經濟報道記者,AI能力的確將持續提升,這對Arm而言意味着更大機遇。

他分析道,當前很多討論都集中在模型的構建和訓練上。但現實情況是,在構建好模型後,推理纔是實現AI商業價值的唯一方式。因爲正是推理賦予了AI智能性,例如可以讓機器人做出正確決策、讓手機比預想得更智能。

“事實上,訓練當今世界上最大規模模型所需的計算量,大約是推理所需10的11次方倍。舉例來說,全球每天的網頁搜索次數大約是10的10次方。也就是,需要把全球十天內的所有搜索量加起來,才能抵得上訓練一個這樣模型所需的計算量。由此可以想象,我們需要運行多少推理,才能讓投入訓練的計算資源實現商業回報。”Chris Bergey續稱。

同時,廠商持續將大模型能力,推進到更低價位段的手機產品中。

Chris Bergey對記者指出,AI會越來越多地應用到入門級手機產品中,原因包括:第一,AI在ArmCPU和GPU上都能很好地運行,而這些硬件覆蓋了各個價格區間;第二,AI將爲這些用戶帶來巨大的價值,設想在新興市場,一部能運行大語言模型 (LLM) 的手機,將能讓從未接觸過專家指導的人羣獲得教育機會,這將帶來巨大經濟潛力,不僅有助於抵消本地部署AI的成本,還會激發用戶對更強大AI的需求。

但是,隨着AI趨勢逐漸演進疊加摩爾定律走向放緩,芯片設計也面臨更多困難。

Chris Bergey分析道,Arm的大部分業務實際上是向整個行業提供標準化產品和平臺解決方案,比如標準化IP模塊,這些模塊被集成到各種不同的SoC中,應用於各個細分市場。

“當前,隨着AI快速演進,芯片設計變得越來越具有技術挑戰性,成本也越來越高;產品的上市時間變得愈發關鍵,其重要性甚至與技術本身相當。此外,由於摩爾定律放緩,設計過程中對工藝的定製化需求也持續增長。這也是Arm推出計算子系統 (CSS) 的原因之一。通過CSS,我們爲從雲端、汽車到終端等不同細分市場的合作伙伴提供計算子系統,幫助合作伙伴有效提升性能、降低成本,並加快產品上市週期。”不過他強調,CSS仍然是標準化產品,而非定製化業務。Arm的主要業務仍然是提供標準化平臺解決方案。

他還提前透露,Arm將在今年晚些時候推出新的Armv9旗艦CPU(代號Travis)。屆時,在目前業內IPC(每時鐘週期指令數)性能最高的Arm處理器基礎上,再次實現兩位數IPC性能提升。

“我們曾強調,Cortex-X925具備業內最高水平的IPC性能。這至關重要,因爲IPC與頻率的乘積決定了整個平臺的性能。相較於單純依賴提高頻率來提升性能,提升IPC可以更高效地實現性能增強,同時還能顯著改善能耗表現。”Chris Bergey指出,不久將推出的新品,將是第一代引入Armv9可伸縮矩陣擴展(Scalable Matrix Extension) 的處理器。

該擴展功能是專門爲加速AI工作負載設計,並將成爲安卓生態系統中最先進的可伸縮矩陣擴展實現。“Arm在GPU方面也持續進行大量投入,今年我們在此基礎上加入了Arm精銳超級分辨率技術 (Arm ASR),使用戶能夠在移動設備上實現遊戲主機級畫質和遊戲體驗。”Chris Bergey表示。

衝刺數據中心

不止邊緣端AI快速下沉帶來更多機會,在數據中心端,Arm也在積極參與競爭,以爭奪更大市場份額。

從傳統視角看,數據中心市場長期以來都是x86架構佔據絕對主導地位,Arm如何快速搶佔份額備受關注。

Chris Bergey受訪時坦言,數據中心和PC此前是Arm架構普及程度相對較低的領域。“x86架構過去長期在數據中心市場占主導地位,如今我們預測在2025年,出貨到頭部超大規模雲服務提供商的算力中,有近50%是基於Arm架構。推動這一增長的,正是雲計算的發展,如今AI計算也成爲強勁驅動力。”

他續稱,Arm架構在PC與平板市場的需求也在大幅成長,預估2025年將佔整體出貨量的40%以上。

“Arm的真正優勢在於,我們在全球範圍內有超2200萬名軟件開發者。幾乎所有重要的軟件開發不僅能在Arm架構上運行,而且都針對Arm架構進行了優化。再加上Arm架構本身的設計及商業模式,開發者僅需一次開發,就能在整個半導體生態系統中衆多采用ArmCPU的SoC上運行。”Chris Bergey如此分析。

對於這一推進進程,Chris Bergey指出,最初,雲服務提供商自身的第一方工作負載遷移至Arm平臺,隨後,第三方工作負載也紛紛轉向Arm平臺,這爲頭部雲服務提供商帶來了超過40%的能效提升。

他舉例道,全球最大的雲服務提供商亞馬遜雲科技 (AWS) 去年秋季就曾分享,他們有相當一部分自身的工作負載是運行在基於Arm架構的AWS Graviton處理器上。過去兩年,AWS新部署的CPU算力中,有超過50%是基於Arm技術的Graviton。

與此同時,數據中心的發展正逐步從通用計算向AI計算轉型。

“領先的AI平臺也正基於Arm架構優化。”Chris Bergey表示,比如NVIDIA Grace Blackwell和Vera Rubin以及許多雲服務提供商的自研加速器。這些加速器無論是用於訓練還是推理,通常都會與Arm處理器配合使用,因爲在芯粒層級,它們之間可以實現緊密耦合,從而帶來更好的計算密度、I/O 密度和帶寬表現。