當科技巨頭押注“多模態” 誰能爲AI落地找到終極答案?

在AI 2.0時代,模型與應用已密不可分。應用場景推動模型發展,而大模型通過差異化創新來突破各種垂直領域的需求。

多模態被看作是一個必然的趨勢,也是商湯大模型的“關鍵詞”。近日,商湯技術交流日上發佈的“日日新SenseNova V6”,就是一個涵蓋通用模型、推理模型、視頻理解模型及全模態交互模型的體系。

“從我們的角度來講,商湯從視覺能力延伸到原生多模態模型是一個非常自然的延伸。”日前,商湯科技董事長兼CEO徐立在商湯技術交流日的演講中表示,“從行業的發展趨勢來看,我們也看到一些潛在的提示點。”

目前,業界對推理能力的關注主要在數理求解等純文本推理任務上,但要實現推理能力在更廣泛場景的落地,就需要多模態和推理的緊密結合。

國際科技巨頭正加速佈局多模態大模型領域,這一趨勢在近期密集發佈的新品中體現得尤爲明顯——無論是谷歌推出的Gemini 2.0、OpenAI發佈的GPT-4.5,還是Meta最新開源的Llama 4,都在顯著提升原生多模態能力。這些突破性進展表明,通過實現更廣泛、更深度的信息交互與整合,多模態大模型正在爲用戶創造更完整、更豐富的場景價值。

未來,AI大模型的競爭焦點將從技術參數轉向應用深度,其核心競爭力將體現在它能否理解人類情感、記憶交互上下文,並在教育、醫療、工業等場景中提供“好用”而非“能用”的解決方案。

多模態成AI共識

據Epoch AI預測,到2028年,互聯網上所有高質量的文本數據都將被使用完畢,機器學習數據集可能會在2026年前耗盡所有“高質量語言數據”。這意味着,如果以當前趨勢繼續下去,數據將成爲大型語言模型(LLM)的重大瓶頸。

不過,在徐立看來,這並不意味着整個知識體系都被消耗完。他認爲,有很多的知識都蘊藏在大量的圖像、視頻,甚至3D等其他模態中。但到目前爲止,還沒有完全地把這些知識真正用來提升原來的文本,甚至是智力的能力。“因爲模態的融合沒有做到那麼好。”

“關於多模態模型的訓練,其計算架構比純文本模型更爲複雜。”商湯科技聯合創始人兼大模型首席科學家林達華向21世紀經濟報道記者表示。

具體來說,文本處理通常包含編碼和解碼兩個階段,而多模態訓練還需要額外處理視頻和圖像數據的編碼階段。此外,多模態模型還涉及不同模態之間編碼方式的協調與選擇問題,這進一步增加了模型設計和訓練的複雜度。

沙利文大中華區執行總監崔楠也向記者表示,多模態大模型的訓練不僅需要大量計算資源,而且訓練時間長、效率低。

因此,多模態大模型的持續進化和迭代,也成爲了人工智能領域最引人注目的發展趨勢之一,國際科技巨頭都在不約而同地加強大模型的多模態能力建設。

例如,谷歌的Gemini 2.0憑藉原生支持文本、圖像、音頻和視頻的多模態輸入輸出,結合強大的推理能力和智能體(Agent)架構,顯著提升了複雜任務的交互體驗。

OpenAI的GPT-4.5則進一步優化了多模態融合,在長上下文理解、跨模態推理等方面取得突破,增強了模型在科研、創作等領域的實用性。

而Meta最新發布的Llama 4採用專家混合架構(MoE)和早期融合技術,在視覺—語言聯合訓練上取得進展,使其在多模態開源模型中佔據領先地位。這些清晰的技術演進路徑標誌着AI發展正在進入一個全新的階段。

“大家都在越來越多地強調多模態的能力,這個是一個自然的市場趨勢。”商湯科技聯合創始人、大裝置事業羣總裁楊帆表示。

多模態大模型突破了傳統單模態模型的侷限性,通過整合文本、圖像、音頻、視頻等多種信息模態,實現了更接近人類認知方式的複雜信息處理能力。這種跨模態的深度融合不僅大幅提升了模型的理解深度,更創造了前所未有的應用可能性。

“語言是一種編碼過程,這一過程存在信息損失。人類在進行思考和判斷時,往往藉助多模態方式。因此,多模態正逐漸成爲行業模型發展的趨勢,它爲諸多全新的應用、場景乃至硬件形態的出現提供了可能。”楊帆表示。

打開落地應用的新可能

2023年起,商湯啓動業務重組,將重心轉向生成式AI。商湯2024年全年業績財報顯示,生成式AI收入突破24.0億元人民幣,同比增長103.1%,佔集團收入的比例由2023年的34.8%進一步提升至63.7%,已成爲集團最大業務。

此次“日日新SenseNova V6”的發佈,可視爲其技術轉型的階段性成果——通過多模態融合,將視覺能力與模型結合,延續其在圖像、視頻理解上的積累。

而多模態也是多樣行業落地的必備因素。因爲AI最終會走回線下,走回物理現實,在這個過程中多模態的處理和思考能力就成爲一種必然的趨勢性需求。

“未來的交互,就是一個多模態全模態的交互,”林達華向記者表示,“我們就是要打通未來交互入口的核心技術。”

徐立強調:“AI之道,在於百姓之日用。”這句話既點明瞭商湯的技術願景,也揭示了當前大模型發展的核心挑戰——如何讓AI真正融入產業與生活,而非停留在實驗室或技術演示階段。

此前,商湯科技確立了“大裝置—大模型—應用”三位一體核心戰略,以日日新(SenseNova)多模態大模型爲基石,以生產力工具和交互工具爲兩大落地方向。

商湯科技認爲,大模型在商業應用上有兩個方面的關鍵價值:一是融入真實的業務應用,具備處理複雜信息和解決複雜問題的能力;二是以更有親和力的方式與人交互,讓人感受到和模型交流的良好體驗,願意和模型持續交流。

要實現上述目標,模型需要具備強大的推理能力,以支撐對人類意圖的深度理解、對複雜信息的分析判斷以及解決真實環境中的複雜問題;能理解情感,與人共情,並且可以和人實時互動;能記住過去一段時間發生的事情,並且捕捉其中的關鍵信息並融入推理。

反映在落地應用上,則在具身智能、教學等場景上有所突破。林達華向記者表示,會從這些特定行業出發進行初步迭代,之後衆多下游企業、合作伙伴以及愛好者會衍生出更多應用創意。

“靠單純的技術很難形成長久的壁壘,現在一個新的模型發佈後很快就會有一系列模型追趕上來,開源也會進一步縮小大家在技術上的差距。技術和行業的深度結合才能形成持久壁壘。”林達華表示。

放眼行業,阿里巴巴宣佈推動大模型技術對公司業務的深度改造,百川智能宣佈減少多餘動作,專注醫學方向,這都說明大模型企業開始專注於技術落地和應用的爆發。

不過,大模型最終要解決的是“好用”而非“能用”的問題,數據隱私、模型偏見、算力成本等問題仍需行業共同應對。零一萬物創始人李開復預測,2025年是“AI應用大規模落地元年”,但廠商需迴歸商業本質,真正爲客戶創造價值,而非僅追求技術指標。

行業的下半場,勝負將取決於誰能更深入產業,構建“數據飛輪”和場景黏性。商湯的戰略提供了某種參考答案,但最終能否在激烈的競爭中脫穎而出,仍需時間檢驗。無論如何,多模態AI的深入發展,正讓智能技術前所未有地貼近普通人的生活,而這或許纔是此次技術浪潮最值得期待的方向。