不搞AI的,不是好汽車公司

近期,李想帶着他的VLA司機大模型再談AI,距離上一次他開誠佈公地談AI和理想的未來,過去了整整130天。

130天不長,但足以讓自動駕駛和AI領域改天換地。1月下旬,DeepSeek發佈開源推理大模型DeepSeek-R1,持續破圈,在國內引爆新一輪人工智能熱潮。上一次理想AI talk中,李想着重強調自研基座大模型的重要性,"未來幾年必須得保證,我們大語言模型的基座模型要做行業前三"。

而隨着DeepSeek-R1橫空出世,理想轉而基於DeepSeek的開源去做VLA(視覺語言行動模型)的L(language語言)部分,也就是語言模型開發。選擇站在巨人的肩膀上,理想汽車在VLA司機大模型的語言能力研發上提速顯著,節省了近9個月的時間和數億元成本。

同一時間裡,智能駕駛因爲事故頻發,遭遇安全可靠性質疑,迎來至暗時刻,不過,在李想看來,現階段比較像黎明前的黑暗,正因爲輔助駕駛行業遇到了問題,解決問題才更有價值。

AI的潛力在解決問題的過程中正變得具象化。不止理想,小鵬、蔚來這兩家與理想差不多同期創業的造車新勢力也在押注AI。

李想稱"AI意味着理想未來的全部",蔚來創始人李斌斷言"一家成功的智能電動車公司,也一定是一家成功的AI公司",小鵬汽車創始人何小鵬喊出"All in AI",打造面向全球的AI汽車公司。

實際上,這背後爭奪的是下一代汽車、甚至產品的定義權,以及與此相伴的技術、用戶與商業模式的全面重構。

造車邁入"AI新戰場"

蔚小理對AI的決心,要追溯到特斯拉的FSD(Full Self-Driving)V12的突破性進展。

2024年初,特斯拉智駕團隊負責人在X(前推特)上介紹,FSD V12僅訓練幾個月,就已經完全超越經過多年積累的FSDV11。FSD突然變強,是因爲他們採用了一種新的端到端(end to end)的神經網絡技術,把傳統的感知、決策、控制融合到一個模型中,通過輸入信息直接產生執行動作,就跟人在開車時,根據路況做出即時反應一樣。

這樣突破性的進展,屬於自動駕駛領域的"涌現"時刻,與ChatGPT 3.5橫空出世對大語言模型的意義不相上下。 即使一直跟特斯拉硬剛的何小鵬,在體驗過FSD V12之後,也不得不服,大讚"FSD V12.3.6表現極好,要向其學習"。

在端到端大模型流行之前,自動駕駛的主流是模塊化設計,包含感知、決策、執行三大模塊,信息是逐級傳導的,車上的傳感器(如雷達、攝像頭等),相當於人的眼睛和耳朵,把感知到的環境信息,傳導到決策模塊,類似於人的大腦,這個大腦裡寫滿了各式各樣的規則,決策模塊根據這些規則規劃出最佳的行駛路線,最終告知給執行模塊,相當於人的手和腳,執行轉向、加速、剎車等動作。

模塊化設計的一個最大缺陷是,駕駛場景千變萬化,決策模塊中的規則代碼只能越寫越多,FSD 11的代碼就多達30多萬行,大大影響執行效率,更要命的是遇到沒有被規則寫入的場景,自動駕駛模塊就會不知所措。

端到端的設計則完全是另一種思路,外部信息輸入自動駕駛大模型,然後直接輸出執行動作,整個決策的過程沒有人爲規則去幹預,純靠模型自己去學習摸索如何駕駛纔是更好的。所以FSDV12的代碼從30多萬行縮減到只剩3000行,而且一級一級的信息傳輸變成端到端的傳輸,信息傳遞變得更加準確,且沒有損耗,也可以讓大模型更精確地掌握全局狀況。

特斯拉把大量真實的駕駛數據投餵給端到端大模型,它就像一個有意識會主動學習的小學生一樣,通過模仿觀察人類的駕駛視頻,涌現出跟老司機一樣的智慧。

在特斯拉影響下,國內智駕路線也因此開始技術轉向,2024年端到端大模型開始加速上車。

但這個學習過程需要較長的時間,而且有可能會犯錯,就像你需要給小學生成長的時間和空間,而且它是如何學習的,完全是黑箱的狀態,這種不可解釋性會嚴重影響研發和問題解決的進度,因爲出現問題,研究人員不知道可以從哪裡提升。

所以特斯拉在面對複雜路況或者極端情況時,表現的並不如意,比如極端大霧、大雨天無法識別障礙物,但短時間內又難以解決,目前已知的路徑就是不斷提升數據質量和數量,但真實且有價值的數據需要時間來積累。

國內的端到端大模型與特斯拉也並非完全一致。小鵬採用了分段式"端到端",把大模型分別引入感知、規劃等模塊,中間通過人工編寫的規則連接。這是一個相對摺中的方案。但是連接仍由人工定義,這意味着信息一定程度的損失,也不利於自動化。

理想在2024年的技術路徑取名爲端到端+VLM(Vision-Language Model) 雙模型分立,理想解釋爲快系統和慢系統。

前者猶如條件反射,可以處理絕大部分常見場景,而後者則是像老司機的大腦,實時分析路況,給出最佳的駕駛規劃,仍然不是真正意義上的端到端。

模型:端到端2.0的進化

與此同時,在端到端1.0上顯得滯後的蔚來選擇了更激進的路線,直接進入智駕行業新方法論——世界模型階段。

2024年7月,蔚來創新科技日上發佈了中國首個智能駕駛世界模型NWM(NIO WorldModel)。世界模型的核心能力是基於信息的理解,進行想象推演,從而規劃軌跡。

實際上世界模型的概念最早也是在人工智能領域出現。

簡單理解,這是一種生成式框架,通過理解現實世界的物理動態(如運動、力和空間關係),來模擬真實環境。這種模型利用多模態輸入(文本、圖像、視頻、傳感器數據)預測未來場景,併爲自動駕駛端到端大模型生成合成數據,作爲訓練基礎。

中國的駕駛環境要比美國複雜的多,但市場又不可能等自動駕駛大模型慢慢學習,達到一個老司機的水平再上線。將世界模型引入到自動駕駛領域,有助於解決數據數量和質量的問題,更有效的處理無窮無盡的Corner case。

蔚來的世界模型NWM(NIO WorldModel)上車表現如何,尚未可知,原本預計今年4月推送,但李斌透露,因爲工信部新規改動,需要等公告後才能進行推送。

與此同時,理想、小鵬等也在加緊向端到端2.0進化,他們將重心放在搭建更爲高階的VLA(視覺-語言-動作)端到端大模型。

這一次AI talk中,理想推出司機VLA(視覺-語言-動作端到端)大模型。李想解釋,他把智能輔助駕駛分爲三個階段,分別是昆蟲動物智能、哺乳動物智能以及人類智能。模塊化屬於昆蟲動物智能,端到端屬於昆蟲動物智能,而VLA則屬於人類智能。

李想介紹,在VLA階段,智能輔助駕駛可以像人一樣觀察世界,世界模型利用3D視覺和2D的組合構建更真實的物理世界,而非VLM階段僅能看到一張圖。此外,VLA擁有自己的腦系統,不僅能看到物理世界,更能進一步理解物理世界,具有自己的語言和思維鏈系統,有推理能力,可以像人類一樣去執行一些複雜動作。

小鵬也正在搭建一個LVA基座模型,據介紹這是720億參數的超大規模自動駕駛大模型,以大語言模型爲骨架網絡、使用海量優質駕駛數據訓練的多模態大模型,具備視覺理解能力、長思維鏈式推理能力(CoT)和動作生成能力,從而在充分理解現實世界的基礎上,能夠像人類一樣進行復雜的常識推理,並將推理結果轉化爲行動。

VLA側重於多模態輸入到動作的映射,而世界模型側重於環境預測和模擬。兩條路徑也可以相互輔助,比如世界模型可以爲VLA提供長期環境預測。

李想在對談中表示,理想選擇用大量真實數據配合世界模型生成數據,來解決模型的黑盒問題,簡單來說就是給VLA司機大模型建立了一個考試的模型。

算力:芯片競賽

完成VLA大模型的訓練,算法、算力和數據缺一不可,ChatGPT的成功,引發全球AI競賽,導致全球算力緊缺,而算力完全仰賴芯片,蔚小理中最先佈局芯片的是蔚來。

李斌進軍芯片最初的目的是省錢,市場上高階輔助駕駛普遍使用的是英偉達Orin X,單顆售價在500美元左右,約合3600元人民幣,以蔚來標配4顆Orin X的車型計算,光芯片一項的成本就接近1.5萬元。

2024年NIO IN大會上,李斌從兜裡掏出已經流片成功的神璣NX9031,打出的口號是全球首顆車規5nm高性能智駕芯片,而且一顆頂Orin X 4顆,在AI算力和ISP等主要指標上,至少有4倍以上的性能提升。神璣NX9031集成超過500億顆晶體管,採用32核心CPU架構,每秒可處理超過6萬億條指令。

目前,這顆神璣NX9031已經搭載到蔚來ET9,是蔚小理中最早正式量產上車的自研芯片。

拋棄英偉達,轉戰自研芯片也是特斯拉淌過的路,因爲隨着算法的不斷演進,端到端大模型的進化,英偉達的芯片不能滿足自動駕駛公司個性化的需求,特斯拉第一代的FSD芯片早在2019年就量產了。

小鵬的芯片團隊在FSD芯片量產次年搭建,自研圖靈芯片,業內認爲小鵬選擇了性價比更高的7nm製程芯片。據小鵬介紹,圖靈芯片擁有40核處理器,兩個神經網絡處理單元(NPU),支持運行300億參數的模型,其AI算力接近三顆英偉達Orin X芯片,綜合性能上比蔚來的芯片低一些,但造價也會比神璣NX9031低。

蔚小理中芯片還沒露面的是理想,據說理想內部也在推進自研芯片項目,代號"舒馬赫",項目啓動比蔚來、小鵬晚,且流片結果不及預期,目前理想還是繼續在英偉達的Thor-U MAX上做開發。

泛化:從AI到機器人

集齊算法、算力再疊加純AI公司難以獲取的真實行車數據,蔚小理在發展AI上佔得一些先機,而無論芯片,還是AI算法都可以泛化到汽車之外的行業,李想更是直接預言,"未來任何一家公司都是AI公司"。

跟智能駕駛汽車最爲接近的AI行業就是人形機器人,因爲他們都需要感知複雜的環境,做複雜且即時的決策交互,技術上也相通,都涉及自然語言處理、計算機視覺、機器學習等。

特斯拉依舊是最先入局人形機器人的汽車公司,2021年推出Optimus,馬斯克也對人形機器人寄予厚望,他預計Optimus將超過特斯拉其他業務的總和,這句話有幾分可信度需要時間來驗證。

不過,何小鵬顯然是信的。小鵬是蔚小理中最早投入人形機器人研發的,2023年推出第一代人形機器人PX5,2024年又推出人形機器人Iron,預計2026年開始工業化量產,追平特斯拉人形機器人的量產時間。

據小鵬介紹,Iron採用1:1仿生設計,更有高度的人形化特徵。擁有178釐米的身高和70公斤的體重,全身配備62個主動自由度,手部則擁有22個可動自由度,而且Iron已經進入小鵬的汽車工廠打工了。

蔚來到2025年才入局機器人,已經組建了約20人的團隊,準備開發機器狗。

李想則相對謹慎,他覺得未來一定會做人形機器人,但不是現在,當下的任務是攻克自動駕駛的技術難題。根據李想對AI的終極設想是硅基家人,人形機器人也只是遲早的事。

站在技術樂觀主義的角度,AI技術無論如何泛化都不爲過,而且商業前景比較明朗,但所要面臨的問題也是現實存在的,拋開人才、技術難關等遠期難關不談,蔚小理最迫切需要解決的是資金問題。

自動駕駛、AI、芯片、機器人,每一個都是"噬金獸",何小鵬曾坦言500億投資僅僅是機器人的入門,李斌說一顆芯片研發投入可以布1000個換電站,約等於15億元。而現實是2024年小鵬還沒盈利,蔚來虧損繼續擴大,理想盈利80億元,但增速下降。

資金掣肘最終會影響資源的分配,而資源決定了以自動駕駛爲起點的AI泛化能夠走多遠或者跌多慘,隨着AI的攤子越鋪越大,可能像馬斯克一樣建立起他的X帝國,也可能如賈躍亭那般被"生態化反"所吞噬,這其中微妙平衡將持續考驗蔚小理。