☰

Google DeepMind推出世界模型Genie 3 可即時變更模擬世界狀態

Google DeepMind在去年底公佈能透過滑鼠、鍵盤互動的3D場景，並且僅以單張圖像即可生成的人工智慧模型Genie 2之後，稍早再次推出名爲Genie 3的更新版本，其中以Genie 2爲基礎，進一步提升模擬環境的互動性與持續穩定性，更加入可透過文字指令即時改變場景內容的「Promptable World Events」 (可提示的世界事件)新特性，預期將使AI模型訓練過程更加靈活且貼近實際需求。

Genie系列屬於「世界模型」 (World Model)，其運作原理類似建構沉浸式模擬環境，讓AI系統可在此虛擬世界中進行互動、學習，進而訓練其應對真實場景的能力。自2023年推出第一版Genie 1以來，Google DeepMind持續透過生成模型推進其應用潛力，而去年底推出的Genie 2更首度支援3D環境與場景記憶功能，可保留使用者離開某區域後的世界狀態，大幅提升模擬環境的一致性。

此次推出的Genie 3雖未如前代那樣帶來跨世代跳躍，但Google DeepMind研究主管Shlomi Fruchter與科學家Jack Parker-Holder表示，本次升級對於通用人工智慧 (AGI)的長期發展具有關鍵意義。

Genie 3將輸出畫質從原本的360p提升至720p，讓整體生成畫面變更清晰，同時也讓模擬穩定性獲得顯著改善。過去Genie 2理論上可持續60秒模擬，但實際使用中常在數十秒內開始出現錯誤與畫面崩壞，而Genie 3生成內容則已經能穩定運行數分鐘，進一步延長AI訓練的有效時間。

另外，Genie 3導入「Promptable World Events」功能，允許使用者透過文字提示即時改變場景內容。例如在相關展示中，Google DeepMind開發團隊在模擬滑雪場景中下達「加入一羣鹿」的指令，系統就會立即在畫面中生成鹿羣，展示Genie 3對語意的理解能力和動態互動潛力。

Google DeepMind強調，這項能力對於訓練自駕車、機器人等具備反應能力的AI系統具有關鍵意義。例如，系統可以模擬突發情況如行人橫越馬路，讓AI模型學會如何即時應變，彌補實際資料中難以涵蓋的罕見情境。

不過，研究團隊也指出Genie 3現階段仍有諸多限制，例如仍無法精確還原真實世界地景、無法完整顯示文字內容，以及模擬持續時間仍不夠長。而爲了成爲真正有價值的訓練平臺，未來版本還需支援長達數小時的穩定模擬。

目前Genie 3尚未對大衆開放，僅先提供給少數合作測試者使用。Google DeepMind表示會在未來擴大開放使用，並且持續調整模擬內容與互動特性，並且朝向更廣泛的AI應用邁進。Jack Parker-Holder 表示：「這不會是唯一訓練環境，但它能幫助我們找出AI不該做的行爲，而這本身就很重要。」

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

Google DeepMind推出世界模型Genie 3 可即時變更模擬世界狀態

相關資訊