AI Agent大戰開啓,字節跳動欲破局

21世紀經濟報道記者雷晨 北京報道

從ChatGPT的驚豔亮相到AI Agent的崛起,技術迭代的軌跡清晰可見——AI正從“對話”走向“行動”,從被動響應邁向主動執行。

在這場變革中,科技巨頭們紛紛押注AI Agent,視其爲下一代人工智能的核心形態。OpenAI、谷歌、微軟等海外巨頭動作頻頻,而中國的字節跳動、阿里、騰訊等大廠亦不甘示弱,憑藉本土化場景加速追趕。

字節跳動旗下火山引擎總裁譚待近期在接受21世紀經濟報道記者採訪時表示,當前產業正從PC互聯網、移動互聯網向AI時代演進,核心變化是技術主體從“網頁/APP”變爲“智能體(Agent)”,開發範式從“程序員定義規則”轉向“模型自主規劃”。

他認爲,隨着模型深度思考、多模態理解及工具使用能力的提升,Agent將在客服、銷售、科研、內部研發等場景實現閉環任務執行。大模型從“效率工具”轉變爲“生產力主體”,推動企業生產力升級。

巨頭混戰AI Agent

人工智能領域正在經歷一場從“對話”到“行動”的範式轉變。

OpenAI將AI Agent定義爲:以大語言模型爲大腦驅動的系統,具備自主理解、感知、規劃、記憶和使用工具的能力,能夠自動化執行完成複雜任務的系統。

傳統的大語言模型(LLM)如ChatGPT雖然能夠生成流暢的文本,但其交互模式仍高度依賴用戶提供的清晰提示詞(prompt),本質上是一種被動響應系統。

而AI Agent則代表了新一代人工智能形態。它的起源可以追溯到人工智能發展的早期階段。早期的智能系統主要以簡單的規則引擎和專家系統爲主,能夠在特定領域內解決一些預定義的問題,但缺乏自主性和適應性。隨着機器學習、深度學習等技術的不斷進步,智能體開始具備一定的學習和決策能力。

真正讓AI Agent成爲全球關注焦點,是2023年以ChatGPT爲代表的生成式AI的爆發之後。2024年,一系列相關技術和應用推出,OpenAI、Anthropic、微軟、谷歌等企業相繼發佈Agent進展。

在火山引擎總裁譚待看來,2025年可能是“Agent應用元年”。

在譚待看來,當前AI行業有兩大趨勢值得關注:一是開發範式轉型,需更強的多模態模型、Agent平臺工具(如MCPhub、Sandbox)及Prompt調優等技術。二是基礎設施升級。計算主體從CPU轉向GPU,數據量從TB級邁向EB級,多模態數據處理需求激增,安全領域需應對惡意AI的挑戰。

記者注意到,今年以來,海外科技巨頭繼續加碼AI Agent賽道。而在中國,字節跳動、阿里、騰訊、百度等大廠亦加大投入,憑藉豐富的本土場景加速追趕。

今年4月,字節跳動啓動“釦子空間”產品內測,5月9日正式開放測試。4月23日,納米AI上線MCP萬能工具箱,全面支持模型上下文協議(MCP)。4月25日,百度發佈心響APP,這是首個移動端的通用超級智能體APP。5月22日,崑崙萬維發佈天工超級智能體SkyworkSuperAgents。5月30日,阿里巴巴開源了創新自主搜索AI Agent——WebAgent。

當前競爭格局已現分野。中信建投計算機首席分析師應瑛指出,對比當前海內外Agent佈局現狀:北美雲廠商主要關注幫助客戶高效部署模型和Agent,而B端廠商更聚焦打造Agent創建和管理平臺;國內互聯網大廠Agent佈局仍延續互聯網時代用戶流量邏輯,通過類“Manus”的通用Agent產品搶佔用戶,B端企業則類似北美。

除了大廠,衆多創業公司也在AI Agent領域積極探索。有的創業公司選擇套殼工具模式,基於開源模型或大廠API開發輕量化應用,如文生圖、代碼輔助工具等。還有的企業選擇垂類深耕,避開與大廠在通用Agent領域的正面競爭。

從市場空間來看,麥肯錫報告顯示,2025年全球AIGC技術滲透率將突破40%。市場研究機構ResearchandMarket報告預計,AI智能體的市場規模將從2024年的51億美元增長到2030年的471億美元(約5年增長420億美元),2024~2030年的複合年增長率爲44.8%。

字節全力打造“AI雲”

在這場混戰中,字節跳動展現出獨特的“技術+場景”生態化打法。

2023年,火山引擎主要聚焦於基礎大模型的研發與優化;2024年,開始探索多模態能力的整合與應用;而進入2025年後,其戰略重心已轉向AI Agent的生態構建。

其中,豆包大模型作爲字節的“技術大腦”,爲旗下各類產品提供了基礎的智能支持;而抖音、飛書等產品,則在短視頻創作、企業協作等領域,將AI技術落地爲具體的用戶體驗。

隨着Agent概念的興起,字節意識到,需要一個能夠整合多種技術,爲用戶提供一站式智能服務的產品。

2025年4月,火山引擎推出了首款面向C端的通用Agent平臺“釦子空間”。其定位是“一個通用的實習生配合各領域的專家”,旨在通過多模態交互、任務規劃和工具調用,幫助用戶完成各種複雜的任務。

從產品功能上看,“釦子空間”具備了典型的Agent特徵。用戶可以通過自然語言輸入任務需求,釦子空間會利用豆包大模型的深度思考能力,將任務拆解爲多個子步驟,並動態調用各種工具完成任務。

今年4月17日,火山引擎推出了“豆包·深度思考模型”“OSAgent解決方案”和“AI雲原生推理套件”,構建了從底層模型到上層應用的完整鏈條。

6月11日,火山引擎發佈豆包大模型1.6、視頻生成模型Seedance1.0pro等新模型,並升級了Agent開發平臺等AI雲原生服務。

譚待表示,深度思考、多模態和工具調用等模型能力提升,是構建Agent的關鍵要素。同時,由於Agent每次執行任務都會消耗大量tokens,模型使用成本也要降下來,才能推動Agent的規模化應用。

通過技術和商業的雙重創新,豆包1.6按“輸入長度”區間定價,深度思考、多模態能力與基礎語言模型統一價格。在企業使用量最大的0-32K輸入區間,豆包1.6的輸入價格爲0.8元/百萬tokens、輸出8元/百萬tokens,綜合成本只有豆包1.5深度思考模型或DeepSeekR1的三分之一。Seedance1.0pro模型每千tokens僅0.015元,每生成一條5秒的1080P視頻只需3.67元,爲行業最低。

譚待透露,火山引擎定位“AI雲”,聚焦AI原生技術,將內部服務豆包的經驗(如模型、計算、數據安全能力)開放給行業,目前已在大模型服務市場佔據領先份額,助力企業完成AI轉型。

其AI Agent商業化呈現明顯的“自上而下”特徵。一方面,火山引擎持續攻堅頭部行業,聚焦汽車、金融、消費電子等領域。另一方面,通過成本優化和低代碼工具吸引初創企業,普惠中小客戶。

從Force大會釋放的信號看,其AI Agent戰略已進入深水區。而科技巨頭們能否真正打破“AI離企業遠”的魔咒,或許取決於下一個問題:有多少客戶願意爲“生產級Agent”買單。