谷歌Genie 3官宣:一句話生成3D世界,但普通人還玩不上

谷歌Genie 3官宣:一句話生成3D世界(來源:本站科技報道)

8月6日消息,谷歌DeepMind近日發佈了其AI“世界模型”(world model)的新版本Genie 3。 該模型能夠基於用戶提示詞,實時生成可供用戶及AI智能體(AI agent)進行互動的3D環境。據谷歌介紹,Genie 3在互動時長和場景記憶的連貫性上,均較前代版本有顯著提升。

世界模型是一種可以模擬環境的AI系統,其應用場景包括教育、娛樂以及機器人或AI智能體的訓練。與傳統視頻遊戲依賴3D資產手動構建世界不同,世界模型完全由AI根據提示詞生成可供用戶探索的空間。谷歌正大力投入該領域,不僅在去年十二月展示了可基於圖片生成互動世界的Genie 2,目前還在組建一支專門的世界模型團隊,該團隊由OpenAI視頻生成工具Sora項目的一位前聯合負責人領導。

根據谷歌發佈的一篇博文,Genie 3在覈心性能上實現了多項關鍵迭代。其生成的互動世界,可支持“數分鐘”的連續互動,相比Genie 2僅能實現的10至20秒互動時長,有了大幅提升。

此外,新模型增強了場景的“物體恆存”能力。谷歌表示,Genie 3能將空間在視覺記憶中保持約一分鐘。這意味着,當用戶在虛擬世界中將視線從一個物體上移開再轉回時,牆上的油漆或黑板上的字跡等細節將保持原位,不會發生意外的扭曲或變化。技術規格方面,Genie 3生成的世界將擁有720p的分辨率,並以24fps的幀率運行。

DeepMind還在Genie 3中加入了一項名爲“可提示化世界事件”(promptable world events)的新功能,允許用戶通過提示詞,直接改變世界中的天氣狀況或添加新的人物角色。

然而,Genie 3在發佈初期將不會向公衆開放。 谷歌方面稱,該模型將首先以“有限研究預覽版”的形式,提供給“一小部分學者和創作者”使用,以便其開發者能更好地理解潛在風險並制定適當的緩解措施。

目前,該模型仍存在一些限制,例如用戶與生成世界的互動方式有限,以及清晰可讀的文本“通常只有在輸入的提示詞描述中提供時才能生成”。谷歌表示,公司正在“探索”未來如何將Genie 3提供給“更多的測試者”。(易句)

(本文由AI翻譯,本站編輯負責校對)