大模型角力視覺推理,推理AI新時代來臨?

21世紀經濟報道記者孫燕 上海報道

輸入一個PPT,自動生成彙報內容、演講稿;輸入一段“蘇超”視頻,得到一段足球解說……如今的大語言模型不只會看文字,還會看圖片、視頻。

7月2日,智譜發佈並開源視覺語言大模型GLM-4.1V-Thinking。這款通用推理型大模型支持圖像、視頻、文檔等多模態輸入,可用於複雜認知任務。

“就像人一樣。眼睛看到了複雜的視覺信號,不光是簡單的信號接收,還可以根據視覺信號進一步推理,理解複雜的物理世界。”在現場演示時,智譜CEO張鵬介紹道,智譜基於預訓練構造了視覺理解模型,監督微調使其初步具備推理能力,再基於深度學習大幅提高推理能力,在業內首次把推理能力和視覺理解能力有機結合在一起。

今年以來,視覺推理成爲大模型競爭焦點:OpenAI推出o3和o4-mini,首次實現將圖像融入推理過程;字節跳動旗下火山引擎發佈豆包1.5深度思考模型,具備視覺推理能力;阿里通義發佈QVQ-Max,支持圖像解析、視頻分析等能力。

“AGI(通用人工智能)可以分爲5個層次:L1是預訓練大模型,L2是對齊、推理,L3是自我學習,L4是自我認知,L5是意識智能。”張鵬指出,視覺推理能力是L3中很重要的能力。

人類的語言能力、視覺能力、語音能力、行動能力、思考能力、推理能力由大腦統一完成,而AI,正在逐一破解這些能力的密碼。

從語言推理到視覺推理

AI擁有了視覺推理能力,能夠做什麼?

中信建投證券研究指出,多模態模型可以直接“看到”PDF 中的圖片、圖表、表格佈局等視覺元素並從中提取信息,同時也能理解PDF的頁面佈局,例如識別標題、段落、列表、表格的位置和關係,這對於結構化信息提取至關重要。

以GLM-4.1V-Thinking爲例,首先可以用於圖片理解,如看圖買菜;也可以用於數學與科學推理,尤其是幾何題這樣需要圖像理解、文字理解、推理等綜合能力的題目,視覺推理能夠支持複雜題解、多步演繹與公式理解。此外,大模型具備時序分析與事件邏輯建模能力,能夠用於視頻理解。

人類不僅希望AI能思考,還希望AI能執行——通過自主智能體的方式,現有的大模型能力能轉化成真正的生產力。

此前,大模型可以用於代碼生成;而視覺推理能力使得AI能夠“看懂”和“理解”視覺信息,比如用戶界面(UI)的設計圖、原型圖甚至屏幕截圖,可以輔助產品經理生成代碼重構用戶界面。

“視覺推理能力還可以用於智能體,讓它理解GUI(圖形用戶界面),比如理解手機、PC上覆雜的用戶操作界面,形成精準的操作邏輯。”據張鵬介紹,GLM-4.1V-Thinking能夠用於GUI與網頁智能體任務,實現交互操作;還可以用於視覺錨定與實體定位(Grounding),通過語言與圖像區域精準對齊,提升人機交互可控性。

國盛證券研究指出,視覺推理能力還能和Python數據分析、網絡搜索、圖像生成等其他工具協同工作,創造性地、有效地解決更復雜的問題,爲用戶提供多模態Agent體驗。

可以看到,視覺推理能夠用於長視頻理解、圖像問答、學科解題、文字識別、文檔解讀、視覺錨定與實體定位(Grounding)、GUI Agent和代碼生成。中信建投證券也指出,其缺點在於處理信息過多時容易出現幻覺,對模型能力要求較高。

商業化落地

視覺推理帶動大模型向通用多模態推理邁進一步,大模型企業也在謀求將這一能力轉化爲數字化生產力,尋求商業化落地。

面對B端客戶,大模型企業一方面提供Agent,打通“最後一公里”。如智譜面向企業客戶和開發者,推出了Agent應用空間,企業無需自建大模型團隊,即可低門檻接入成熟、安全、可控的Agent能力。

如果說大模型是發動機,Agent則是由發動機提供動力的汽車、飛機、軍艦,包括任務型Agent、交互型Agent、自主型Agent、協作型Agent等。

“智能體到底是偏向白領的創意型工作,還是藍領的體力工作,抑或是偏向頂尖研究人員的創意和研究探索型任務更合適?對於這些問題,業界仍然在不斷探索。”張鵬認爲,但只有讓AI工人實現了代替人的一部分基礎性、重複性工作,才能夠實現真正的降本增效,這是智能體能力的關鍵點。

長江證券研究指出,視覺推理+工具調用的深度融合下,教育、醫療、企服等垂直場景的 Agent落地週期有望提前,看好Agent商業化元年及投資機遇。

畢馬威中國技術和新經濟管理諮詢服務主管合夥人高人伯告訴記者,隨着生成式AI向“自主智能體”演進,AI將不再僅僅是執行指令的工具,而是能夠主動規劃、協同並完成複雜任務的智能夥伴,這可能會催生全新的商業模式。

另一方面,大模型企業也在探索將AI能力落地於智能硬件。

這也經歷了技術演進:早期模型很大,只能在雲上推理,手機、PC作爲客戶端調用雲端的智能能力。而隨着端側的算力、能源問題逐步解決,端側也可以部署一定的智能能力,如在汽車、AI眼鏡、AI玩具上可以實現端雲結合。

“未來不管是機器人,還是汽車、眼鏡、胸針,都會接入AI的能力。”張鵬認爲。