改變遊戲製作方式!微軟開源AI遊戲生成大模型WHAM
生成性人工智能(AI)具有通過支持人類創意構思—即新思想的生成來改變創意產業的潛力。然而,模型能力的侷限性在更全面地將這些技術融入創意實踐中時帶來了關鍵挑戰。迭代調整和發散性思維仍然是利用技術支持創造力的關鍵,但當前最先進的生成性AI模型對這些實踐的支持不足。
爲了解決這些問題,微軟推出了一種最先進的生成模型—世界與人類行動模型(WHAM),並展示了它如何生成一致且多樣的遊戲玩法序列,並保持用戶的修改—這三種能力是識別出的與創意實踐對接的關鍵能力。與以前那些要求手動定義或提取結構、適用範圍較窄的創意支持工具不同,生成性AI模型能夠從可用數據中學習相關結構,從而爲更廣泛的應用開闢了潛力。(鏈接在文章底部,官方提供了Win可用工具)
01 技術原理
微軟通過用戶研究(“用戶需求”部分)與遊戲開發創作者的合作,得出了三種模型能力,並通過WHAM生成的遊戲玩法序列展示了這些能力。
a.生成的序列應保持一致性,遵循遊戲機制,並在時間上連貫;b. 具備多樣性,能夠生成多種潛在結果以支持發散性思維;c. 還應具備持續性,能夠保存並融合用戶對遊戲視覺和控制的修改。d. WHAM示範器是一個交互式概念原型,提供了與WHAM模型交互的可視化界面。
將人類遊戲玩法形式化爲離散令牌的序列,交替出現圖像觀察和控制器動作。用 來表示編碼在時間步 的觀察 的所有令牌,用 表示控制器動作。帶上標的變量表示模型的預測。VQGAN 負責將觀察空間中的圖像進行分詞, (其中 , 和 3 分別表示視頻幀的高度、寬度和通道數),映射到一個緊湊的離散潛在空間 ,其中 爲詞彙表大小, 爲瓶頸大小。
接着,訓練一個因果變換器來預測離散化的觀察和動作令牌。VQGAN 編碼器/解碼器使用重建損失和感知損失進行訓練。沒有提供顯式的分隔符來區分下一個應預測的是觀察令牌還是動作令牌—模型必須通過學習到的位置嵌入來推斷這一點。
02 演示效果
微軟開發了一個名爲WHAM示範器的原型,允許用戶直接與模型進行交互。爲了與世界和人類行爲模型(如Muse)進行交互,WHAM示範器提供了一個可視化界面,用於與WHAM實例進行互動。
通過給模型提供真實的遊戲序列和控制器操作,並讓模型生成遊戲畫面,來評估一致性。這裡展示的視頻是使用Muse(基於WHAM-1.6B)生成的,展示了模型在生成最長達兩分鐘的連貫遊戲序列方面的能力。
Muse(基於WHAM-1.6B)生成了基於相同初始10幀(1秒)真實遊戲畫面的行爲和視覺多樣性的示例。頂部的三個示例展示了行爲多樣性(多樣的相機運動、在出生點附近徘徊以及沿着不同路徑前往中間跳躍板)。下面的三個示例展示了視覺多樣性(角色使用不同的滑板)。
展示了Muse(基於WHAM-1.6B)如何保持修改的示例。首先從原始遊戲數據中獲取一幀畫面,然後將額外的角色圖像編輯到該畫面中。生成的遊戲序列展示了該角色如何被適應並融入到生成的遊戲序列中。
歡迎交流~,帶你學習AI,瞭解AI