Google DeepMind推出世界模型Genie 3 可即時變更模擬世界狀態

Google DeepMind在去年底公佈能透過滑鼠、鍵盤互動的3D場景,並且僅以單張圖像即可生成的人工智慧模型Genie 2之後,稍早再次推出名爲Genie 3的更新版本,其中以Genie 2爲基礎,進一步提升模擬環境的互動性與持續穩定性,更加入可透過文字指令即時改變場景內容的「Promptable World Events」 (可提示的世界事件)新特性,預期將使AI模型訓練過程更加靈活且貼近實際需求。

Genie系列屬於「世界模型」 (World Model),其運作原理類似建構沉浸式模擬環境,讓AI系統可在此虛擬世界中進行互動、學習,進而訓練其應對真實場景的能力。自2023年推出第一版Genie 1以來,Google DeepMind持續透過生成模型推進其應用潛力,而去年底推出的Genie 2更首度支援3D環境與場景記憶功能,可保留使用者離開某區域後的世界狀態,大幅提升模擬環境的一致性。

此次推出的Genie 3雖未如前代那樣帶來跨世代跳躍,但Google DeepMind研究主管Shlomi Fruchter與科學家Jack Parker-Holder表示,本次升級對於通用人工智慧 (AGI)的長期發展具有關鍵意義。

Genie 3將輸出畫質從原本的360p提升至720p,讓整體生成畫面變更清晰,同時也讓模擬穩定性獲得顯著改善。過去Genie 2理論上可持續60秒模擬,但實際使用中常在數十秒內開始出現錯誤與畫面崩壞,而Genie 3生成內容則已經能穩定運行數分鐘,進一步延長AI訓練的有效時間。

另外,Genie 3導入「Promptable World Events」功能,允許使用者透過文字提示即時改變場景內容。例如在相關展示中,Google DeepMind開發團隊在模擬滑雪場景中下達「加入一羣鹿」的指令,系統就會立即在畫面中生成鹿羣,展示Genie 3對語意的理解能力和動態互動潛力。

Google DeepMind強調,這項能力對於訓練自駕車、機器人等具備反應能力的AI系統具有關鍵意義。例如,系統可以模擬突發情況如行人橫越馬路,讓AI模型學會如何即時應變,彌補實際資料中難以涵蓋的罕見情境。

不過,研究團隊也指出Genie 3現階段仍有諸多限制,例如仍無法精確還原真實世界地景、無法完整顯示文字內容,以及模擬持續時間仍不夠長。而爲了成爲真正有價值的訓練平臺,未來版本還需支援長達數小時的穩定模擬。

目前Genie 3尚未對大衆開放,僅先提供給少數合作測試者使用。Google DeepMind表示會在未來擴大開放使用,並且持續調整模擬內容與互動特性,並且朝向更廣泛的AI應用邁進。Jack Parker-Holder 表示:「這不會是唯一訓練環境,但它能幫助我們找出AI不該做的行爲,而這本身就很重要。」

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》