警惕VLA“泡沫”,VLA只是錦上添花,並不是“萬能鑰匙”

就在VLA被推上“神壇”之際,博世智能駕控中國區總裁吳永橋給VLA潑了一盆涼水。剛剛結束的2025世界人工智能大會(WAIC)上,吳永橋提出了一個反共識的觀點:VLA短期內難以落地,仍需攻克多維難題。

其實2024年就有企業提及VLA的概念,2025年以來,VLA開始被行業大肆鼓吹。語音、手勢、甚至表情控制智駕系統,VLA被描繪得無所不能。這個原本在具身智能機器人領域廣泛討論的技術被移植到了自動駕駛。但在吳永橋看來,行業對VLA的癡迷太過急於求成。他提到VLA當下存在很多問題(引號內爲吳永橋原話):

“首先,多模態大模型的特徵對齊很難實現(視覺、語言、動作)”;

這裡的多模態特徵對齊指的是將不同模態(如圖像、文本、音頻等)的特徵映射到統一的語義空間,從而實現跨模態信息的有效融合與理解。這種技術在多模態學習中扮演着“橋樑”的角色,使得不同模態的數據能夠協同工作,提升模型的智能表現。

“其次,多模態的數據獲取和訓練也十分困難。”

按照不少車企的宣傳話術,VLA可以實現語音識別,手勢識別,甚至眼神識別等,但是這些數據從哪來,沒有足夠多的實際數據作爲支撐如何保證絲滑體驗。

“最重要的一點,VLA模型要部署在智駕芯片上,才能實現行車安全以及駕駛高度擬人化,模型規模必須要做到7B-10B左右。但目前市面上幾乎所有的三方智駕芯片都不是專爲大模型的計算而設計的,帶寬相對較小,僅3B的模型佈置在Thor芯片,頻率很難做到10赫茲。”

這裡其實提到了3個問題,首先是參數量的問題,目前行業主流的車端VLA模型參數差不多在2B左右,企業披露的最高是4B。跟吳永橋說的10B(100億)差距甚遠。

聚焦VLA的企業首先要解決的就是量的問題。目前看來沒有任何一家企業能夠達到這個數據量,而且短期內很難速成,只能靠賣車一點點積累。

另外一個就是芯片問題。芯片硬件的設計要提前預判幾年後的軟件趨勢。VLA是最近1年才流行起來的說法,而目前主流的芯片都是至少3年前就開始立項開發,並不是專門針對大模型參數設計,這就存在吳永橋提到的帶寬問題。就是芯片在一定時間內能夠傳輸的數據量。是數據傳輸率的一個重要指標,表示在傳輸管道中可以傳遞數據的能力。大家可以換一個蓄水池的角度理解或許更形象,就是在一個足夠大的蓄水池裡,但是出水口徑只有2cm,效率其實是非常低的。

有技術預判的企業肯定意識到了這個問題,爲了支持大參數量,車企們的策略是自研芯片,小鵬和蔚來已經上車,但效果怎麼樣還是未知數。但其實還是繞不開那個問題,這幾家企業芯片立項的時間都比較早,能考慮到多大的硬件極限也不清楚。

再有就是刷新頻率。就是系統對外部輸入信息的實時更新,按照吳永橋的說法,現在的模型刷新頻率都很難達到VLA需要的10赫茲。也有企業說達到了這個數據。

最後,吳永橋給了一個結論,可能要在3-5年之後,有了真正能跑大模型的芯片,才能支持VLA落地。博世並不否認VLA的價值,但是當下,吳永橋認爲一段式端到端更有意義。只有將一段式端到端打磨到極致的性能,才能帶來高度擬人化、絲滑的智駕產品。(當然他說的應該是當下最好的產品)

無獨有偶,博世並不是唯一一個提醒大家保持冷靜的人。技術控曹旭東對VLA的態度更剋制。上海車展期間,Momenta創始人曹旭東在接受騰訊汽車採訪時也提到了相同的觀點。(引號部分爲曹旭東原話)

“VLM(Visual-Language Model,視覺語言模型)、VLA(Vision-Language-Action Model,視覺語言行動模型)是很好的方向,但在我看來是錦上添花的方向,在技術實現上其實沒那麼難。它可能對自動駕駛系統上限,或者系統安全性來說,會有少則三五倍、多則五到十倍的提升,但這個提升對實現規模化L4是遠遠不夠的,規模化L4至少是100倍到1000倍的提升纔有可能實現。”

這裡曹旭東表達了3個意思:1、VLA是一個不錯的方向;2、技術難度並不高;3、對系統安全的性能提升有限,最多5-10倍,這個提升對L4規模化遠遠不夠。

這個可以順着他的意思把其中的邏輯給拆解一下,第一點他說VLA是一個很好的方向,但並沒有強調VLA的唯一性,這和不少企業將VLA宣傳成自動駕駛的必須且唯一解有本質區別。

後面2點,曹旭東解釋自動駕駛本身就是一個vision action(視覺-行動)的東西,把語言加進去,相當於加了一個信息輸入而已,技術難度並不高,而且加入一個信息元素系統安全也很難提升100到1000倍。

“我們認爲提升要用強化學習,把端到端大模型放到通過海量真實數據構建起來的仿真環境去做探索,成功就給獎勵,失敗就給懲罰,這個模型就能夠學習到什麼是安全駕駛、高效駕駛的概念。這種能力是能夠把模型的上限和安全的上限、下限提升100到1000倍,甚至1000到10000倍都是可以的。”

和吳永橋一樣,曹旭東也認爲,要保證優質的自動駕駛體驗,將端到端與強化學習結合是更靠譜的方案。

相較於這些概念性的東西。曹旭東更強調自動駕駛本源的三要素:模型、數據、算法。他認爲,模型設計的上限決定了系統學習能力的上限。如果模型設計的不好,給他再多的數據也學不會。就像老鼠的腦結構不可能超越人類。

順着這個思路再往下走,VLA只是一種“視覺-語言-行爲”模型,證明它可以在一個模型裡處理這些信息,但處理的好不好是另一回事。如果按照老鼠,猴子,猩猩,人類腦結構來劃分,不同物種有不同的VLA結構。其實又回到了模型設計的問題,然後通過大數據餵養和強化學習訓練在生成一個好的模型。而且還有一個核心的問題,目前最好的模型是什麼人類無法提前預知,只能先搭建,然後用數據去試。

如果我們把視角再往前推會發現一個非常有意思的事情,大概1年前整個行業將端到端推上神壇,一體化架構、自主學習……各種花裡胡哨的名詞,彷彿有了端到端就無所不能。結果僅僅一年時間,端到端還沒成熟,新的VLA技術又粉墨登場,被大肆宣揚。

慶幸的是,在所有人都被流量裹挾時總有人發出不一樣的聲音。就像當年端到端大火的時候,所有人提起端到端都兩眼放光,前圖森未來創始人侯曉迪給端到端破了一盆冷水,他認爲端到端只是人工智能裡很平常的一項技術,提醒行業不要過分神化,有了端到端也未必能解決所有問題。站在今天的視角來看,端到端已經從成了大家口中的牛夫人,VLA纔是當下的小甜甜,但是這股風到底會持續多久誰也不知道。明年會不會又有什麼新的技術名詞出現呢?