NVIDIA展示「Physical AI」最新進展 結合圖形渲染、模擬與生成式AI打造真實虛擬世界

在加拿大溫哥華舉行的國際電腦圖形大會SIGGRAPH 2025上,NVIDIA研究部門發表了一系列面向「Physical AI」的軟體與技術創新,並且由多位副總裁與研究領導者發表特別演講,闡述圖形與模擬如何共同推進物理AI的發展。

在現代機器人、自駕車與智慧空間的發展過程中,「Physical AI」 (物理人工智慧)已經成爲驅動技術發展的核心之一。這項技術結合了類神經圖形 (Neural Graphics)、合成資料生成、基於物理的模擬、強化學習與AI推理能力,能讓AI系統不僅「看得見」,更能「理解」,並且與真實世界互動。

在過去近20年間,NVIDIA研究團隊便一直深耕於AI與圖形領域的交集,成爲推進這項技術的關鍵力量。

AI與模擬的雙向推進

NVIDIA AI研究副總裁Sanja Fidler表示,AI的進步推動了更強大的模擬能力,而更精準的模擬又反過來加速AI系統發展,兩者之間存在強而有力的雙向連結。

在這次發表中,NVIDIA宣佈推出多項針對物理AI的新工具與模型,其中包含:

• NVIDIA Omniverse NuRec 3D Gaussian splatting函式庫,可用於大規模世界重建。

• NVIDIA Metropolis視覺AI平臺更新。

• NVIDIA Cosmos與NVIDIA Nemotron推理模型,其中Cosmos Reason是一款具備物理推理與常識判斷能力的視覺語言模型,可讓機器人與AI代理如人類般進行判斷。

而這些成果背後,則是來自全球NVIDIA研究團隊在神經渲染、即時光線追蹤、合成資料生成與強化學習等領域的多篇論文突破。

打造虛擬世界,訓練真實機器人

物理AI的開發,往往從建立高擬真、物理精確的3D環境開始。沒有這樣的虛擬場景,開發者無法在模擬中有效訓練機器人,因爲虛擬中學到的技能可能無法無縫轉移到現實世界。

NVIDIA研究副總裁Ming-Yu Liu舉例,一臺農業機器人需要精準控制手臂力量,才能在採摘桃子時不造成損傷,而一臺製造業機器人必須在微米級精度下組裝電子零件,稍有誤差就可能失敗。這些高精度動作,必須先在安全且逼真的虛擬空間反覆嘗試與學習。

NVIDIA長年在光線追蹤與即時圖形渲染上的研究成果,是支撐這類高擬真模擬的核心。同時,AI技術也反向用於快速將照片或影片轉換成可互動的3D虛擬場景,這種「由2D生成3D」的反向渲染能力,大幅降低創造虛擬世界的門檻。

新工具與研究突破

在此次SIGGRAPH期間,NVIDIA也公佈多項研究成果與工具:

•ViPE (Video Pose Engine):

由Spatial Intelligence Lab與NVIDIA Isaac團隊合作開發,能從一般影片 (如行車記錄器、手持拍攝、甚至電影畫面)中推算相機運動,並且生成高精度的深度地圖與3D幾何標註。

•生成式AI預測未來場景:

Deep Imagination Research團隊利用電腦視覺、Transformer與視覺生成模型,讓物理AI系統能預測環境中可能的變化,例如偵測一輛闖紅燈的汽車,或是判斷桌上杯子可能跌落的風險。

•結構穩定的3D重建:

新研究解決了由2D影像生成的3D模型在物理模擬中易崩塌的問題,確保生成物件符合真實物理結構,避免在虛擬訓練時出現不合理的物理反應。

•真實動作的虛擬角色:

結合動作生成器與物理追蹤控制器,生成如跑酷等複雜動作的高擬真合成資料,可用於訓練虛擬角色或機器人學習高難度動作,應用於救援或惡劣地形行走等場景。

•材質細節生成AI助手:

運用擴散模型與可微分的基於物理渲染器 (PBR),藝術家只需輸入文字描述,就能爲3D物件添加如風化、老化等細節,大幅縮短內容製作時間。

•可微分光線遮蔽查詢:

新技術可更快速、精準地從影像與影片重建3D幾何圖像,並且與生成式基礎模型結合,成爲3D內容製作的AI助理。

推進工業數位化與智慧化

透過上述研究與技術,NVIDIA將圖形渲染、物理模擬與生成式AI無縫結合,爲物理AI開發提供完整基礎。這些技術不僅能加速遊戲與虛擬內容創作,更可用於智慧工廠、智慧城市、自動駕駛與機器人領域,加速工業數位化轉型。

NVIDIA指出,當虛擬世界與真實物理規則高度一致,AI系統便能更安全、更高效地在虛擬空間中學習,最終將技能帶到現實世界。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》