理想重押VLA,“端到端”模型負責人夏中譜將離職|36氪獨家

文 | 李安琪

編輯 | 李勤 楊軒

36氪汽車獨家獲悉,理想汽車輔助駕駛“端到端”模型負責人夏中譜將於近期離職。夏中譜的職級爲21級,直接彙報給理想輔助駕駛研發副總裁郎鹹朋。

有知情人士表示,夏中譜已經退出理想最新的輔助駕駛方案VLA項目組,數週沒有參加業務例會。但離職後,夏的去向尚未明確。

對於上述信息,36氪汽車向理想汽車官方求證。截至發稿,未獲官方迴應。

夏中譜於2023年加入理想,主要負責輔助駕駛系統的規劃控制模型。此前,夏中譜曾在百度的自動駕駛部門任職。

夏中譜負責的技術模塊,是理想汽車當時“端到端”輔助駕駛方案落地的關鍵。由於方案效果不錯,理想將輔助駕駛團隊調整爲“端到端”模型、世界模型、量產研發三大部門時,夏中譜正式成爲“端到端”模型負責人,直接彙報給郎鹹朋。

在理想2年時間,夏中譜從P9(對應理想新職級體系19級)升到了21級,這種升職速度在理想內部並不多見。

不過,有知情人士告訴36氪汽車:夏中譜的離開,或許與理想的輔助駕駛技術路線變更有關。

“夏中譜認爲端到端路線還有可以優化的空間,但理想內部已經押注了VLA(Vision-Language-Action,視覺-語言-動作)模型路線。”有知情人士說道。

5月7日,理想汽車CEO李想在其AI Talk中,稱“VLA是一個像人類司機一樣工作的司機大模型。”理想爲此還投入了超過預期3倍的訓練卡數。

輔助駕駛團隊管理層也有更多資源,據36氪汽車瞭解,理想輔助駕駛負責人郎鹹朋職級已經升到了24級。VLA技術路線則由自動駕駛技術研發負責人賈鵬主導,此前賈鵬還曾負責理想世界模型等技術預研。

2023年至今,理想汽車的輔助駕駛技術路線經歷了數次切換:從依賴高精地圖、基於規則的方案,切換到“端到端”,再到如今的VLA模型路線。

“端到端”方案落地,是理想汽車打響名聲的關鍵一戰。“端到端”方案由特斯拉率先實踐落地,比起過往依賴於工程師手寫的規則方案,“端到端”更加依賴AI模型的自主學習能力,輔助駕駛系統的“感知-預測-規劃-控制”鏈條信息也能實現無損傳遞。

理想的“端到端”方案從2023年11月開始立項,由於落地效果突出,理想於2024年10月向Max版本用戶全量推送了“端到端+VLM(視覺語言模型)”方案。“比原定落地時間提前了兩個月。”知情人士表示。

理想也因此擺脫了輔助駕駛“落後生”的身份,迅速擠入行業第一梯隊。夏中譜作爲“端到端”量產負責人也得到內部晉升機會。

但理想汽車並不認爲,“端到端”是自動駕駛的終極答案。

在今年5月7日的AI Talk中,理想汽車CEO李想闡述了內部技術路線換代的思考。他表示,“端到端”並不完全理解物理世界,更像一種模仿行爲。“端到端應付大部分的泛化是沒有問題的,但面對它從來沒有學到的、特別複雜的(場景),就會遇到問題。”李想說道。

儘管理想在“端到端”方案中加入了VLM(視覺-語言)模式,但內部仍認爲VLM能起到的作用有限。

理想汽車更看好的技術路線是VLA(視覺-語言-動作)。VLA模型最早由谷歌AI公司Deepmind推出,主要用於機器人領域,隨後逐漸成爲具身智能領域的主流技術範式與框架。

與ChatGPT、Sora等視覺語言模型(VLM)不同,VLA新增了與物理世界交互的“動作”能力。換句話說,VLA不僅理解周圍環境,還能直接輸出控制指令,如機器人動作或車輛駕駛決策等。VLA也隨之被應用到輔助駕駛領域。

理想認爲,VLA能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統,具備語言、CoT(思維鏈)推理能力,既能看,也能理解並真正執行動作,符合人類的運作方式。

而增加輔助駕駛系統的世界通識能力、推理能力也正成行業的一大趨勢。近日蔚來汽車發佈的世界模型方案也強調了對交通路牌和文字的識別能力;小鵬此前發佈的雲端基座大模型也具備複雜的鏈式推理能力,蒸餾到車端後,能實現大模型控車的效果。

不過也有行業人士告訴36氪汽車,VLA路線還在早期,還沒經過大量落地實踐,正如李想自己所言,“我們其實走的是一個無人區。

隨着“端到端”舊路線技術負責人離職,理想汽車All in VLA大模型的態度也更堅決。