☰

通用視頻模型有望在12-24個月內出現

7月28日，在2025世界人工智能大會上，啓明創投主管合夥人周志峰連續第三年發佈啓明創投AI十大展望。其中提到，通用視頻模型有望在12-24個月內出現，該模型可處理視頻模態下的生成、推理與任務理解，促進視頻內容生成與交互的革新；具身智能機器人將率先在揀選、搬運、組裝等場景實現規模化部署等。

基礎模型方面，未來12-24個月，200萬Token的上下文窗口將成爲頂級AI模型的標配。圍繞更大上下文窗口展開的更精細、更智能的上下文工程，會成爲推動AI模型及應用發展的核心驅動力之一。

多模態模型方面，通用視頻模型有望在12-24個月內出現，該模型可處理視頻模態下的生成、推理與任務理解，促進視頻內容生成與交互的革新。

AI Agent方面，兩方面展望，一是未來12-24個月，Agent形態將從“工具輔助”走向“任務承接”，首批真正意義上的“AI員工”將進入企業，廣泛參與客戶服務、銷售、運營、研發等核心流程，不再僅作爲助手存在，而是具備協同作業、主動反饋、承擔OKR等能力，推動從成本工具向價值創造轉變。

另一大展望，多模態Agent將不斷走向實用化，能夠融合視覺、語音、傳感器等多源輸入，進行復雜推理、工具調用與任務執行，在醫療、金融、法律等行業率先實現突破。

AI基礎設施方面也有兩大展望，一是，AI芯片領域，將有更多“國設”且“國造”的GPU開啓批量交付；與此同時，在3D DRAM堆疊、通算融合等發力創新的新一代AI雲端芯片，也將在市場中嶄露頭角。

另一個是，未來12-24個月，Token消耗量將提高1至2個數量級，集羣推理優化、終端推理優化、軟硬協同推理優化成爲AI Infra側降低Token成本的核心技術。

AI應用方面，AI交互範式轉移將在未來兩年內加速到來，伴隨用戶對手機屏幕依賴的減弱與語音等自然交互方式的重要性上升，將推動AI原生超級應用的誕生。

另一展望，垂直場景中的AI應用潛力巨大，越來越多初創公司將憑藉行業認知深耕細分領域、快速實現產品與市場匹配，以“Go Narrow and Deep”的策略與大廠形成差異化競爭。

最後一方面展望，AI BPO（業務外包）模式將在未來12-24個月實現商業化突破，從“交付工具”走向“交付結果”，並通過“按結果付費”的方式，在金融、客服、營銷、電商等流程標準化行業快速擴張。

具身智能機器人方面，將率先在揀選、搬運、組裝等場景實現規模化部署，積累大量機器人第一視角數據與帶觸覺的操作數據，構建“模型-本體-場景數據”的閉環飛輪。這一飛輪將驅動模型能力迭代，最終推動通用機器人邁向大規模落地。

文/北京青年報記者溫婧

編輯/周超

相關資訊