Waymo導入DeepMind Genie 3打造世界模型 讓自駕車在虛擬平行時空練車

Alphabet旗下自動駕駛公司Waymo,於近期揭露其最新的秘密武器「Waymo世界模型」(Waymo World Model)。這套系統基於Google DeepMind最新的Genie 3世界模型技術,能夠生成高度擬真且可互動的3D虛擬世界,進而讓Waymo的自駕車在實際上路前,可在這個由AI生成的「母體」 (Matrix)中,經歷數十億英里的極限測試,無需在真實世界冒險。

基於Genie 3:不只生成影片,還能「互動」

Waymo世界模型的核心,源自Google DeepMind開發的Genie 3。不同於OpenAI的Sora主要生成「觀看用」的影片,Genie 3是一個「通用型世界模型」 (General World Model),其生成的環境是可互動的。

Waymo對此進行了針對性的調校,使其不僅能生成視覺影像,還能同步輸出光達 (LiDAR)與雷達的感測數據,讓自駕車不僅能透過影像訓練系統,更能透過多重感測器紀錄數據進行學習。

專攻「長尾效應」:龍捲風、逆向車都能隨便生

Waymo目前在真實道路上已經累積近2億英里的自動駕駛里程,但這還不夠。因爲真實世界中,那些「長尾情境」 (Long-tail scenarios)如突然出現的龍捲風、穿着恐龍裝的行人,或是高速公路上的逆向行駛車輛,其時發生的機率極低,因此難以收集大量數據。

不過,藉由Genie 3世界模型輔助,Waymo將能以此建造更擬真的數位環境,並且針對特定學習訓練需求量身打造合適場景。

透過生成式世界模型,Waymo工程師可以像「造物主」一樣:

• 生成極端氣候:暴雪、洪水、強光刺眼。

• 製造突發狀況:設定大型動物衝出、或是前方車輛掉落貨物。

• 反事實模擬 (Counterfactual Simulation):這是最強大的功能。系統可以重現真實發生過的某個場景,但改變其中的變數 (例如:「如果當時那輛車沒有讓路會怎樣?」),讓AI在平行時空中嘗試不同的決策,評估哪種反應更安全。

Google的AI組合拳:Project Genie先行

值得一提的是,Google在今年1月底也針對消費端推出了Project Genie原型(目前開放給Google AI Ultra訂閱戶)。這是一個讓一般玩家也能「用文字蓋世界」的工具,你可以把它想像成是Waymo版世界模型的「遊戲版」,顯示Google正將Genie技術兵分兩路:一路走娛樂創作,一路走高精度的工業應用。

分析觀點

這項技術的導入,象徵自動駕駛訓練進入了「生成式模擬」 (Generative Simulation)的新紀元。

過去的模擬器 (Simulator)大多是基於遊戲引擎 (如Unreal或Unity)手動刻出來的,雖然精美但物理規則是寫死的,並且場景相對有限。而「世界模型」的概念在於AI透過觀察海量影片,自己學會「世界的運作規律」,例如知道車子撞到牆會停、玻璃會碎、水會濺起等。

這跟Tesla目前正在做的End-to-End訓練有異曲同工之妙 (Tesla也在訓練自己的世界模型來預測未來影格)。但Waymo優勢則在於它擁有更精確的感測器數據 (LiDAR) 作爲基準真相 (Ground Truth)。

對於Waymo來說,這解決了擴張速度的瓶頸。以前要進軍一個新城市 (例如從鳳凰城到舊金山),需要車隊在那裡跑好幾個月收集數據;現在,理論上只要有基本的圖資,世界模型就能生成該城市的各種交通狀況,讓車子在虛擬世界先「跑熟」了再落地。這或許解釋了爲什麼Waymo近期擴張的速度明顯變快了。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》