前小米智駕劉方:如果VLA跑通,自動駕駛會變成具身智能子問題|36氪專訪
“VLA是一個像人類司機一樣工作的司機大模型。”5月7日晚,理想汽車CEO李想在AI Talk中說道。
這是智能駕駛行業繼“端到端”之後,出現的最新技術方向。
VLA(Vision-Language-Action,視覺語言動作)模型,最早由谷歌AI公司Deepmind推出,主要用於機器人領域,隨後逐漸成爲具身智能領域的主流技術範式與框架,Open AI、字節跳動等公司都在踐行這個路線。
與ChatGPT、Sora等注重文本、圖像與視頻的視覺語言模型(VLM)不同,VLA在前者的基礎上,新增了與物理世界交互的“動作”能力。
換句話說,VLA不僅理解周圍環境,還能直接輸出控制指令,如機器人動作或車輛駕駛決策等。智能駕駛、具身智能兩大熱門賽道也因此有了更深刻的交匯。
不過,當下VLA的技術實現與工程落地還處於早期。技術創新的迷霧,仍需要在實踐中撥開。爲此,36氪汽車近期交流了一個擁有智駕技術背景人才創立的具身機器人項目——阿米奧機器人,希望爲行業提供更多參考。
阿米奧機器人成立於2024年9月,由小米汽車智駕技術產品負責人劉方成立。今年3月,阿米奧完成了種子輪融資,資方包括安克創新、智譜AI和險峰長青。
劉方曾歷經小米自動駕駛團隊籌建、技術研發和量產落地的全過程。更早之前,劉方在谷歌中國搜索業務部門履職。
劉方向36氪汽車表示,2023年生成式大模型GPT的出現給從業者帶來很多衝擊:一是更大的數據量能讓更大的模型產生智能;二是大模型本身已經理解了很多人類知識,學習新技能不用只靠模仿,而是通過學習模仿數據背後的知識,來建立對事情的理解。
他比喻道,以前做每個具體的AI場景,就像是在爬一座山,總是碰到困難;但GPT出現後,不用爬山了,而像是海面上的一艘船,當海平面逐步提升,山就被淹沒了。
而VLA模型,是能讓物理硬件具備真正智能的大模型。劉方認爲,如果VLA這條路能跑通,自動駕駛就變成一個低維度的事,成爲具身智能大問題裡的子問題。
劉方表示,近年來的智能駕駛,本質上是模仿學習,不依賴人工寫規則,而是直接讓系統學習海量數據,自主找到駕駛規律。但這也伴隨着挑戰,模仿學習沒有辦法處理已有數據之外的case。
VLA、強化學習等新技術落地,正在帶來新的思路。
例如,VLA(視覺語言動作)模型中的VLM(視覺語言模型),本身就具備了認識世界的能力。“VLM的性能決定VLA超過一半的性能,VLA大部分工作其實就是在VLM上做增強。”劉方表示。
除了具備看圖說話、能感知距離之外,VLA更關鍵的一步,是最後的動作環節。“好比買傢俱回來組裝,首先讀一下說明書,看案例,但能不能幹得好,還是要實操。”
劉方表示,最後的環節本質上就是trying out(測試)的過程,機器人也會在最後的實操階段做強化學習。
強化學習是一種AI訓練的獎勵機制與策略,如果智駕系統開對了就給“糖”,開的不好就挨罰。
不過劉方表示,自動駕駛跟機器人的強化學習最大差別是,競爭博弈問題。“機器人不用跟旁邊的機器人搶一個杯子,但自動駕駛的強化學習中,還包括對手的反應怎麼模仿。”
這最終可能需要一個好的世界模型仿真器才能解決問題。但實際落地過程中,不可能忽然出現一個很好的世界模型來幫助模擬。“只能說,世界模型的一部分模擬先讓系統做強化學習、得到提升,然後找到不符合真實的模擬反應,加一些數據加讓世界模型變得更好,一步步迭代。我相信世界模型跟駕駛模型一定是綁定在一起迭代的。”
劉方還表示,當下VLA還處於創新迷茫階段,行業各家的實現路徑不盡相同,也還沒有達到收斂狀態。
基於VLA模型,阿米奧機器人在探索自己的路徑。劉方向36氪汽車介紹,公司目前主要聚焦3C消費電子領域的機器人柔性生產。
他告訴36氪汽車,很多電子產品生命週期並不長,產量小,而自動化產線部署成本高,至少需要兩個月時間才能落地,“但一條生產線只生產3-4個月就滿足需求了,從成本上來看,3C消費電子的產線自動其實不划算。”
而基於VLA模型,劉方表示能讓過往的專用機器人變成通用機器人,學習能力和適應能力很快趕上人類水平。
例如,在工廠的固定工位提供一臺機器人軟硬件,代替人力三班運作,即便3C產品產線發生柔性變化,通用機器人也能夠在類似的通用任務之間無縫切換。
目前,阿米奧機器人與北大搭建了聯合實驗室,雙方在VLA基座模型上開展合作。在模型訓練上,阿米奧機器人也能在投資人智譜AI的助力下開展預訓練;其次,阿米奧機器人已經在工廠裡進行數據採集。
商業進度層面,劉方表示,今年三四季度將有一條大的通用機器人產線整體落地。除了消費電子領域,未來阿米奧機器人還將擴展到服務領域、家庭清潔整理等場景。
以下是36氪汽車與阿米奧創始人劉方的對談,內容經編輯:
36氪汽車:你們不考慮做汽車領域的機器人產線嗎?
劉方:汽車行業的勞動強度和需求確實更大,但本質上不存在通用性需求,它是一個設備智能化的好場景,但不是具身智能的好場景。
一條汽車生產線要用7-9年,至少也要5年。如果有更好的專用設備來解決這個問題,爲什麼不用專用設備來解決?專用設備比通用設備會更便宜,沒有必要用通用化的設備。
36氪汽車:現在機器手臂的供應商你們是自己做還是找外部?
劉方:現在夾具能夠解決80%以上的任務,很多產業並不需要靈巧手。靈巧手一是成本吃不消,第二是生命週期,客戶要求三班倒、用一年,這至少是7000個小時的壽命需求。我們現在的要求壽命就是8000~1萬個小時,夾具可以做到。
36氪汽車:機器人代工的利潤不高,你們的商業模型是怎麼計算的?
劉方:第一,代工就是把人給替下來,能爲客戶節省多少錢。第二是機器產能要跟上。從人力成本來看,一個人力一年要10萬塊錢。
機器人有兩部分成本,第一是實體機器人的固定資產,第二還要有算法模型,模型成本前期投入大,後面運轉起來就攤薄了。機器人可以三班倒,一個工位可以替換三個人的成本。
36氪汽車:你當時爲什麼選擇了消費電子的產線機器人領域創業,而不是自動駕駛?
劉方:我最早一份工作是在Google就是做language model(大語言模型),2023年初GPT3.5出來後,對我產生了很大沖擊。
第一,大數據量會讓更大的模型產生智能。用大量數據餵養一個本質上是模仿學習的技術框架,即便沒有見過一些case,也能產生智能。
第二,大模型本身理解了很多人類知識。學習新技能不需要只靠模仿,而是通過學習模仿數據背後的知識,來建立對事情的理解。這更靠近AGI,這也是具身智能VLA在做的事。 如果這條路能跑通,自動駕駛就變成一個低維度的事,只是一個大問題的子問題。
36氪汽車:所以VLA在自動駕駛落地是一個相當確定的事?
劉方:VLA在機器人的落地是比較確定的事。雷總(小米CEO雷軍)一直講,應該以高維打低維。站在更高維度,機器人做好了,也能開車,自動駕駛就是很自然的事。
36氪汽車:VLA能解決自動駕駛行業哪些問題?
劉方:兩個問題,第一是數據量太大,以前靠寫規則覆蓋所有case是不可能的。後來大家通過模仿學習,不寫規則了,直接通過數據學習的辦法讓效率變得更高,這是特斯拉去年講的事情。但還有問題,模仿學習沒有辦法處理數據之外的case。這也是VLA能夠提供的最大幫助。
36氪汽車:強化學習能解決問題嗎?
劉方:我們的方法是在VLA上做強化學習。強化學習跟人一樣,人通常先學習基礎能力:看圖說話、知道距離。其次是知道動作怎麼做,這個要實操。比如買傢俱回來組裝,首先要讀一下說明書,看案例,但能不能幹得好,還是要實操。這一步本質上就是trying out的過程,我們只在最後實操階段做強化學習。
因爲機器人沒有大的模擬環境去模擬交互,只能在實際中能做大量試驗。且機器人直接學習和嘗試的時間、次數是有限的,所以機器人不可能從0開始強化。VLA大致的學習邏輯和方向是對的,中間做不好的事情,最後靠強化學習來做。我們管這個叫殘差強化學習,學習VLA模型和實際環境之間的偏差,而不是全部環節都上強化學習。
36氪汽車:自動駕駛用強化學習難嗎?
劉方:其實更難。自動駕駛跟機器人最大的差別是,存在競爭博弈問題。機器人不用跟旁邊的機器人搶一個杯子,但自動駕駛的強化學習中,還包括對手的反應怎麼模仿。
要麼在真實環境採集,但有些數據本來就很難採;要麼在模擬環境中生成對手的反應,但生成數據,也不一定真的就覆蓋了訓練所需要的數據分佈,探索空間不夠大的時候,強化學習也不會產生實際效果。
36氪汽車:那怎麼解決?世界模型有用嗎?
劉方:如果仿真能力很強,世界模型裡不同對象的反應模仿做的很好的話,其實就不存在out of distribution(OOD,指的是當一個模型被訓練在特定的數據分佈上時,它在處理與訓練數據不同的數據分佈時的性能可能會變差)的問題了。
這是個邏輯上的悖論,我一直沒有想明白,這可能是個一步步往上迭代的過程。不可能忽然出現一個很好的世界模型來幫助模擬。只能說,世界模型的一部分模擬讓系統做強化學習,得到提升,然後找到不符合真實的模擬反應,加一些數據加讓世界模型變得更好,一步步迭代。我相信世界模型跟駕駛模型一定是綁定在一起迭代的。
36氪汽車:最近理想汽車說VLA進入無人區了,你認同嗎?
劉方:創新不容易,VLA確實還是個迷茫的狀態,大家有不同的路徑和實現方式。比如Pi Robotics的方案跟Facebook、Google、字節、和我們的方案都不一樣。
雖然都是VLA,但大家在各種細節、算法設計、數據使用上都不一樣。機器人VLA還沒有達到收斂狀態,是因爲還沒有人做出一個百分百靠譜的東西。
不像自動駕駛,特斯拉已經做出標杆且被產品化了。機器人迄今爲止還沒有,但這也是創業者的機會。
36氪汽車:這與機器人的落地場景很多有關嗎?
劉方:因爲VLA還沒有收斂,沒有放之四海皆準的經驗。我們的經驗是,VLM的性能決定VLA超過一半的性能,VLA大部分工作就是在VLM上做增強。
同時VLM的空間能力、空間之後的語義理解能力很差,就是說,它不知道圖像裡的東西在3D空間的位置是怎樣的,也不能知道兩個物體的3D對應關係是怎樣的。我們希望通過3D增強的方式來強化VLM的感知能力。
然後還要把對動作的理解能力加回來,我們是通過生成式的模型來解決問題。以前做language model要做很多中間步驟,但GPT3.5告訴你乾脆就不用做,直接生成。這跟物理學家費曼的觀點一樣,“只有我創造的,纔是我能理解的東西”。
36氪汽車:VLA的底層技術有什麼變化嗎?現在還是transformer的範式。
劉方:短期內可能看不太到。但最近自迴歸學習和生成式模型發展比較快,這可能對模型性能有蠻大提升。
36氪汽車:你覺得AGI時代的終端會是什麼?
劉方:我覺得功能型產品會更加直接和直觀一些,能幹活的機器人是我想做的事。情感陪伴型、遊戲型、玩具型我其實不太能夠理解,我只能幹自己看得懂的事。