新一輪智駕PK,邁入實戰時刻

出品丨虎嗅汽車組

作者丨李賡

頭圖丨AI生成

如果不是年初官方按下智駕宣傳的“急停鍵”,近期“智駕”或許早已再次被炒上了天。

原因無他,只因中國最頭部的一批智駕勢力,幾乎都選擇了在近期落地自己最新的智駕能力:

理想汽車借i8上市,推送 “VLA 司機大模型”;

Momenta攜手智己,完成R6飛輪大模型上車;

元戎昨天(8月26日)發佈了自己的VLA大模型;

小鵬今天(8月27日)的新P7發佈會上發佈自己全新的VLA大模型;

華爲透露9月即將推送的ADS 4。

如此整齊劃一的步調,不禁讓人想起上一次“端到端”模型引領的行業浪潮。但這一次,變革的深度與廣度,已有過之而無不及。這輪競賽爲何集中爆發?各家命名不同的模型背後,隱藏着怎樣的技術分野?新一代智駕,究竟“聰明”在了哪裡?

本期《智駕雷達》VOL.5,我們就來提前“縱覽”一下智駕圈即將發生的這一輪競賽,並嘗試爲你先講清楚其中的脈絡。

首先是第一個問題:爲什麼行業內的動作如此集中?虎嗅汽車綜合多家智駕勢力的信息,總結出了四大關鍵驅動力:

監管加強和輿情時間拖後了部分公司的既定節奏;

各家公司智駕技術和產品,最底層是AI最底層的創新突破,時間起點相近;

將AI底層技術套用到智駕上,需要相當多的訓練和調整投入,需要的時間週期相對固定;

各家公司都看到了這一輪智駕能力提升的潛力,對其他家優先發布技術和產品擔心,基本都選擇了先發布“基礎版”再優化的思路。

其中最重要的必然是第4點。元戎啓行CEO周光在昨天的發佈會上就專門表示:VLA模型(當前版本)的下限已超過端到端(可以簡單理解爲2024年中的大模型技術水平)的上限,未來會越來越好。

注:E2E 1.0模型可以看到中間的模型部分存在“分塊”,對應E2E 2.0的VLA模型則爲一體

周光也在現場通過PPT解釋出了這個趨勢的底層原因:相比第一代“端到端”,VLA大模型實際上去掉了規控時代留下的“環節”(不再在大模型中劃分感知、定位導航、預測、規劃等環節),不再是單個環節內一個CNN模型,最後再將多個模型拉通形成一個“大模型”。而是從傳感器到控制端只有一個完整的模型。

其次是模型本身從CNN(早期AI圍棋、人臉識別等應用的底層技術)爲底層核心升級爲Transformer(就是GPT等大語言模型崛起的核心底層技術)爲核心,大幅提升了智駕大模型對人類大腦的模仿學習能力。

相比智駕行業上一輪普及的VLM大模型,VLA大模型在架構和能力上更貼近智駕能力的需求

這種技術深層次的改變,讓VLA具備了思維鏈(CoT)能力,模型本身不再是一個從感知輸入(視覺)到控制輸出(行爲)的 “黑箱”,而是通過引入語言作爲媒介,模仿人類駕駛員的思考模式,將複雜的駕駛決策分解爲一系列連貫、有邏輯的中間推理步驟。

同是端到端模型,VLA也獲得了能力上的大幅提升:

增強決策的邏輯性和可靠性:面對複雜或罕見的(長尾)路況,具備Cot能力的VLA模型能夠一步步分析:“識別校車,需減速慢行”>“檢測到路邊兒童,存在突然橫穿馬路的風險”>“綜合判斷。這種分步推理遠比單一的、直覺式的端到端輸出更爲可靠和安全;

提升系統的可解釋性和透明度:Cot將模型的決策依據以人類可以理解的語言形式展現出來。極大地幫助了研發人員進行模型的調試和優化,也爲事故追溯、責任界定提供了清晰的依據,從而增強了用戶和監管機構對自動駕駛系統的信任;

提升模型的泛化能力和處理複雜場景的能力:通過在海量數據中學習推理邏輯,Cot使得VLA模型能夠舉一反三,將學到的駕駛知識和常識應用到從未見過的新場景中。它不再是單純地記憶駕駛行爲,而是學會了“如何思考”,讓應對現實世界中層出不窮的複雜交通狀況成爲了可能。

除了VLA路線,目前華爲和蔚來主推的是另一條路線:世界模型。後者雖然更強調“海量使用雲端模擬的數據、來讓大模型‘理解’世界而學會駕駛”,但其最底層的世界模型仍需要Transformer技術驅動。華爲此前在和和浙大、港科大的相關科研成果中,多次提到這一點。

理論上的強大,最終要靠體驗說話。在對元戎啓行VLA模型的實際測試中,最令人印象深刻的,是其“防禦性駕駛”能力的提升。

周光用了一個非常人性化的詞來形容這種能力——“讓AI學會害怕”。這種“害怕”並非遲疑,而是一種高級的智能表現:像人類駕駛員一樣,對潛在風險保持先驗性的警覺。

右下角爲VLA模型的CoT運行界面,包含對環境的文字定義、推理和決策(下同)

在深圳常見的立交橋下輔道,人車混行,視野狹窄,VLA模型會持續進行自我推理,主動將車速降至絕對安全的範圍。

在被花壇遮擋視線的路口,當感知到對向車道有電瓶車高速駛來,它的駕駛決策會立刻從“控速”升級爲“主動降速”,預留出足夠的反應空間。

在丁字路口的匯入場景,VLA也能在沒有駛入路口之前,提前分析識別,降低車速再進行匯入車流的動作,避免因爲車速過快導致車輛被迫拐入其他車道。

在老城區複雜的十字路口,它能綜合天氣、路邊違停、行人動態等信息,推理出潛在風險,以一種近乎“敬畏”的姿態,緩慢而安全地通過。

總而言之,新模型的體驗提升並非體現在某個單一功能上,而是一種綜合性的飛躍——更順滑的控車、更果斷的反應和貫穿全程的“安全感”。儘管在極端場景(全程共兩次,一次是在盲區狀況下低速變道遇到了施工路段,另一次是路口臨停車多導致轉向過晚)下仍需人類接管,但那種駕駛時“心裡有底”的信任感,是此前任何系統都難以給予的。

值得一提的是,因爲文字指令的關係,這套智駕系統已經可以用語音進行基礎性的操作,例如“請開快、開慢一點”等指令能夠被系統接收,並以決策的形式給到操縱端。VLA也已經可以直接讀取交通標識上的文字說明,並且按照指示優化駕駛(例如有些路口左轉紅燈可以進待行區)。

在昨天的發佈會交流環節上,周光自己表示:VLA目前還沒有完全實現思維鏈(CoT),目前這一技術路線的得分也只是到6而已(滿分10分),還有大量的優化要做。

接下來的主要任務主要是兩項,一是持續收集和豐富自有測試車隊、量產車數據,以及生成數據;另一個是看清技術趨勢,持續完善VLA的後訓練,不斷優化大模型的表現。

對於行業接下來的發展,周光也提了一些觀點,其中最重要的三點是:

VLA的成本差異主要在芯片,具體的成本差異不確定,但目前來看15萬元以上的車型都可以適配,10萬元級別的車型通過優化也有機會搭載;

早期的智駕芯片主要針對CNN設計優化,VLA模型應用之後,芯片一定會加強對Transformer的支持,尤其是在FP4、FP6等精度的算力優化上;

如果車企或供應商想自研輔助駕駛系統,也很難跳過從規則算法、端到端1.0到VLA模型的過程,每個發展過程有自己的Know-How。頂多可以壓縮某些階段的時間,但不可能完全繞過。

如何讓AI真正地“理解”並“敬畏”真實世界,從“會開車”到“會思考”,智駕技術和產品正悄然邁入一個新的實戰時刻。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4742364.html?f=wyxwapp