☰

爲什麼Sora不能成爲世界模型？

寫完一篇空間智能文章，發到羣裡，聊它如何用虛擬空間數據訓練機器人，幫人類理解世界。

結果有朋友提出個問題：

文生視頻算不算空間智能？它也能生成虛擬場景，爲什麼不是最佳途徑？這問題挺有意思，我第一反應就想到了Sora。

文生視頻“新星”崛起速度太快，幾句話能生成一個視頻，兩年內字節、騰訊、甚至其他模型廠商紛紛壓住該賽道。

不過，兩年過去，有人發現它沒那麼完美，生成人像總帶着“恐怖谷”的詭異，連Facebook首席人工智能科學家Yann LeCun也點評說：Sora不過是畫得好看，壓根不懂物理規律。

於是，我帶着疑問研究了一下：看似強大的Sora，爲什麼不能成爲真正的世界模擬器？它和空間智能的差距到底在哪？

愛因斯坦有句經典的名言：

所以，想深入探究，就必須從深層次技術原理出發。

Sora的核心是“擴散模型”（Diffusion Model）；從一堆隨機噪點開始，通過AI一步步去掉雜亂，最終生成清晰的畫面，再將這些畫面串聯成視頻，聽起來像魔法，其實背後是數學原理在支撐。

另外，它還有個幫手是“Transformer”，這個詞不少人聽說過。什麼意思呢？它擅長處理序列數據，把零散的信息連成一條線。在Sora中，它將文字指令拆解，再把一幀幀畫面串聯成流暢的動作。

舉個例子：

如果你輸入“船在咖啡杯裡航行”，Sora會先理解“船”和“咖啡杯”，然後，把船、水波盪漾、船身傾斜這些相關的詞彙、場景串聯起來。

這背後依賴海量視頻數據和強大的算力，才能在幾秒鐘內生成幾十秒的畫面。

可是，你有沒想過，僅僅依賴數據堆砌出來的結果，真的能理解物理世界嗎？答案是不會。問題就出在架構上。

擴散模型擅長從數據中學習像素規律，預測下一步畫面應該是什麼樣子；Transformer則能讓幀與幀銜接得天衣無縫。所以從視覺上看，Sora很“聰明”，能夠模仿真實視頻的連續感，但仔細一想，問題就來了。

船怎麼可能塞進杯子？我試過輸入「貓跳到桌上」，畫面流暢得沒話說，結果貓腿直接穿過了桌面，就像遊戲裡的穿模。爲什麼會這樣？

因爲Sora的生成邏輯是“畫得好看”，而不是“畫得對”。

它不懂重力如何讓腳落地，也不懂桌子爲何會擋住貓腿，生成“恐怖谷”人像時，更一目瞭然，臉部細節一放大就崩了，它只知道靠像素預測，卻沒有考慮現實規則。

所以，Sora的強項和弱點是一枚硬幣的兩面。

視覺流暢是它的本事，不合理也是它的命門。正如Yann LeCun所說，它“不懂蘋果爲何落地”，我覺得這個觀點很對：Sora的架構根本就沒想去理解物理世界，只是想把畫面糊弄得像真的。

既然Sora不懂物理世界，那它能否成爲世界模擬器呢？

我認爲有點懸。爲什麼？

世界模擬器是一個能夠運行物理規則的虛擬環境，幫助機器人學習現實中的因果關係，但Sora生成的視頻雖然看起來像回事，卻毫無真實性。

你想想看，“船在杯子裡”這樣的視頻去怎麼去教機器人，機器人可能會以爲杯子能裝下萬噸巨輪，這根本沒好用。

因此，擴散模型和Transformer的目標是視覺生成，而不是物理模擬，Sora更像一個藝術工具，追求“好看”的畫面，而不是“對”的世界，這讓我覺得Sora侷限性在於其架構沒有對準目標。

既然這樣問題來了：世界模擬器要具備哪些關鍵特性？

我覺得最基礎的有三點：

這麼說，有點抽象，我舉個例子：

你在教一個機器人怎麼拿東西，世界模擬器裡面的“虛擬杯子”，得模仿出真實杯子的重量、材質、形狀，這樣機器人才知道該用多大的力氣去抓。

模擬器把重力以各指標模仿的不準確，機器人就會抓得太緊或者太鬆，東西就會掉下來，甚至還會被弄壞。

再聊聊智能交通。

現實中，堵車是個大難題。要解決它，得靠算法、數據分析，比如錯峰出行。

假設有個世界模擬器，如果它沒法模擬紅綠燈時長、車輛速度，就無法預測哪裡會堵車、什麼時候堵，也做不了錯峰規劃。

同樣，如果模擬器不清楚車輛摩擦力，就判斷不了車子能不能在綠燈時順利起步或紅燈時及時停下；如果搞不清車輛之間的相互影響，交通就會亂套，甚至可能出事故。

所以，世界模擬器的作用，是把複雜的物理規則和物體之間的關係都搞清楚，這樣才能讓機器人、智能交通這些高科技的東西更好地工作。

對比來看，Sora在關鍵特性上明顯不足。它在視覺生成方面做得很棒，但沒辦法滿足世界模擬器對物理規則和因果關係推理的要求。

這種問題不只出現在Sora上，一些國產大模型也有類似架構缺陷。我刷抖音時經常看到有人用圖生視頻模型，結果人突然變成狗，看起來很搞笑，但明顯不符合現實邏輯。

原因很簡單，架構無法爲世界模擬器提供真實的物理理解能力，因此，在具身智能或其他領域的應用就會受到很大限制。

可以得出一個結論：世界模型和文生視頻的架構完全不一樣。世界模型要模擬真實世界，必須懂物理規律和現實邏輯；文生視頻主要生成畫面，在邏輯和真實性上沒那麼嚴格。

我認爲，相比之下，真正值得關注的，是更注重物理規則建模和具備因果關係推理方向的模型。比如：李飛飛的World Labs、黃仁勳的世界模型（Cosmos WFMs），以及羣核科技的空間智能。

爲什麼拿他們舉例呢？有三點：

先看目標，黃仁勳提出的 Cosmos WFMs（世界模型）是希望打造一個能模擬真實世界的「虛擬大腦」。這個大腦要懂物理規則，要知道物體怎麼動、力怎麼作用，還要明白事情的前因後果。

李飛飛的 World Labs 目標是讓人工智能真正理解世界。它通過模擬物理規則、因果關係和複雜場景，讓AI不僅能“看到”，還能“理解”世界。

比如：一個AI產品可以在虛擬場景中預測事情的發展，或根據不同情況做出合理決策。這種能力對提升機器人、自動駕駛等領域的智能化至關重要。

羣核科技的空間智能，目標是希望把真實世界搬到數字世界裡，讓AI能看懂、能用，然後用數據幫助家居設計、建築規劃、以及AR、VR這些領域，幫行業更高效的幹活。

說得直白點，是希望打造一個“數字孿生”的世界，讓人、AI、空間裡面思考和行動，解決實際問題。

既然有了目標，再看看三家技術實現路徑。

Cosmos WFMs 的技術實現路徑是通過構建生成式世界基礎模型（WFMs），結合高級分詞器、安全護欄和加速視頻處理管道等關鍵技術，爲開發者提供高效的開發工具。

具體來說，它利用NVIDIA NeMo對基礎模型進行調優，並通過 GitHub 和 Hugging Face 提供開源支持，幫助開發者生成高仿真的物理數據。

此外，Cosmos 還專注於多視角視頻生成、路徑規劃、避障等任務，進一步提升物理AI在機器人、自動駕駛等領域的應用能力。

報告裡面的東西是不是很難懂？

通俗的說：他們做的這套系統，能讓AI學會像人一樣看路、規劃路線、避開障礙物，還能生成各種角度的視頻，特別適合用在機器人和自動駕駛這些領域。

李飛飛的World Labs的技術實現路徑是，開發一種從2D到3D的智能轉化技術，讓AI不僅能看懂平面圖片，還能生成完整的三維空間。

他們的系統從一張普通照片出發，估算出場景的3D結構，然後補全圖片中看不到的部分，最終生成一個用戶可以自由探索和互動的虛擬世界。

簡單講，用AI把平面圖像變成立體空間，讓人像在真實世界一樣能走進去、四處看看。這種技術對機器人導航、虛擬現實等領域特別有用，因爲它們都要“空間智能”來理解和應對複雜的3D環境。

羣核科技搞空間智能，簡單來說：

1萬臺GPU服務器，用計算能力幫家居和建築行業快速做出大量3D模型，順便攢了一堆2D和3D的設計數據；把數據整合到一個平臺上，能生成特別逼真的虛擬場景。

最後，企業可以用這個平臺來訓練機器人，比如：掃地機器人或者自動駕駛設備，讓它們在虛擬世界裡模擬真實環境，學會怎麼動、怎麼避障，變得更聰明。

因此，無論黃仁勳的Cosmos WFMs、李飛飛的World Labs，還是羣核科技的空間智能，技術核心目標是通過模擬真實世界的物理規則和因果關係，讓AI在空間內訓練更聰明、更能解決實際問題。

我認爲，要實現這一目標，離不開一個關鍵因素：高質量數據。數據是構建世界模型和空間智能的基礎，可它也是發展裡最大的「攔路虎」。

爲什麼？

我們說具身智能有點抽象，換一個更具體的詞：“虛擬訓練”。虛擬訓練有兩個重要方面：

一個是生成式的海量數據。就像GPT這樣的文字模型，靠超大規模的數據和強大的算力來學習和推理；另一個是真實數據。枕頭的大小、重量、材質，或者光線怎麼反射、物體怎麼碰撞，這些是物理交互場景。

這種真實數據來源於現實世界，直接決定虛擬訓練能否模擬出符合實際邏輯的行爲和反應；

換句話說，虛擬訓練要兩種數據：一種是“虛擬生成”的大數據，另一種是“真實場景”的物理數據，而後者，往往成爲發展的瓶頸。

原因很簡單：文生視頻、文生圖等生成式技術雖然能生成豐富的內容，但很難直接獲取真實的物理規則和精確的交互細節。

比如，文生視頻可以生成一個“滾動的球”，但它可能無法準確模擬球在不同材質地面上的摩擦力、彈跳高度或碰撞反應。

那真實場景的數據從哪兒來呢？只能從真實世界裡來。

通過傳感器、攝像頭、激光雷達等設備，從現實環境中採集；你開車時，傳感器會記錄車輛的運動軌跡、力度變化、光線反射，還有車輛間距、行人行爲，甚至天氣對路況的影響。這些信息會被上傳到平臺，用來分析和訓練。

但有了數據還不夠。

平臺的數據不能保證下一次操作一定精準，還得在虛擬環境裡進行大量訓練；自動駕駛汽車，要在虛擬環境裡反覆模擬行駛，可能要跑成千上萬次，直到能應對各種複雜場景，才能用到現實世界裡。

明白這些，你也就明白了，這不僅是自動駕駛、機器人領域的問題，其他行業也一樣。

不管醫療、製造還是農業，世界模型和空間智能都需要海量的真實數據來支撐，並且要通過虛擬環境的反覆訓練來驗證和優化能力。

換句話說，無論是自動駕駛、機器人導航，還是其他行業的具身智能應用，核心挑戰都在於如何獲取高質量的真實數據，再通過虛擬和現實的結合，讓AI真正能解決實際問題；這纔是未來技術落地的關鍵。

誰有底層架構、誰有數據，誰纔有上牌桌的機會。

爲什麼Sora不能成爲世界模型？

相關資訊