獨家對話光輪智能:合成數據如何破解AI“數據飢渴”|50x50

在人工智能飛速演進的當下,數據的價值變得愈發關鍵。以大模型和具身智能爲代表的新一代AI系統,正逼近傳統數據採集方式的極限。

MIT等機構預測,若按當前速度發展,人類生成的真實數據(尤其是高質量文本數據)將在2-8年內被消耗殆盡,到2026年可能用完互聯網可用文本數據,而具身智能更是對數據呈指數的級膨脹需求,達到了EB(1EB = 1024PB)級別。

面對“數據荒”的危機,合成數據(Synthetic Data)被視爲打破瓶頸的關鍵鑰匙,也成爲業界共識的解決方案。英偉達科學家 Jim Fan 曾指出,未來AI模型的訓練數據,將有望由合成數據提供萬億級token支持。

合成數據(Synthetic Data)是一種模仿真實世界數據的非人工創建的數據,它是由基於生成式人工智能技術的計算算法和模擬創建而成。早在1993年,著名統計學家Donald Rubin就在論文中提出了合成數據的概念。近年來,隨着ChatGPT的火爆和生成式人工智能技術的發展,合成數據概念受到越來越多的關注。

相比傳統的真實數據採集方式,合成數據的優勢不僅在於成本低、效率高,還包括無需標註、更強泛化性等特性。

Gartner預測,到2030年合成數據將成爲AI模型的主要訓練來源,市場規模預計超過86億美元。其應用場景廣泛,涵蓋自動駕駛、醫療健康、金融、零售等多個領域,在提升模型性能、保護隱私、系統測試等方面發揮着重要作用。

全球科技巨頭已紛紛佈局:英偉達推出Omniverse Replicator生成高精度3D仿真數據,並收購合成數據公司Gretel;微軟開源Synthetic Data Showcase工具,服務於醫療和金融場景;Meta則通過Llama 3自生成數據優化代碼生成能力。

在國內,一批新興合成數據企業也正在崛起。2023年,專注具身智能的合成數據公司——光輪智能應運而生。公司首創將生成式AI與仿真技術結合,用以構建大規模、可交互、高保真的訓練場景,重塑自動駕駛與具身智能的數據體系。

團隊成員來自英偉達、Cruise等全球領先企業,具備AI、仿真、合成數據工程化落地等多領域交叉背景。目前,已服務例如英偉達、DeepMind、Figure、銀河、智元多家國際頭部客戶以及全球高校實驗室。

值得一提的是,成立短短兩年多時間,光輪智能已完成五輪融資,投資方包括北京市人工智能產業基金、經緯創投、奇績創壇、辰韜資本等。

近期,我們對話了光輪智能技術生態負責人甘宇飛,圍繞“合成數據如何驅動具身智能”和“行業技術挑戰”展開深度探討。

以下爲創投家與甘宇飛對話全文,略有刪減:

甘宇飛:在自動駕駛領域,合成數據的使用比例大約在30%至40%之間,而在具身智能領域,這一比例則高達80%至90%。

具身智能中的數據採集成本很高,需要搭建實景環境、部署機器人並進行日常維護,效率低。而合成數據可以通過仿真的方式快速構建多樣化場景,成本更低、效率更高。

目前合成數據在具身智能的不同階段,包括預訓練、後訓練、評測目前都有很大的數據缺口,具身智能產品研發的全生命週期都需要用到大量的合成數據。

甘宇飛:AI圖像生成和仿真技術各有優劣。生成式AI擅長視覺逼真度,但在空間尺度和物理約束方面缺乏精確控制;仿真技術則強調物理一致性,但在真實感和生成效率上遜色一些。

將兩者融合,是我們認爲最具前景的發展方向。例如,神經渲染技術正逐步成熟,它結合AI視覺生成與仿真建模能力,能夠直接輸出具備真實感和物理精度的3D場景與資產。

此外,未來的合成數據應當更“真實”,更“極端”,更“高效”——能模擬現實中罕見卻關鍵的長尾事件,幫助AI模型提升魯棒性。

甘宇飛:因爲純AI生成數據可能會讓模型“自我循環崩潰”。這在早期研究中就已被證實,比如GPT會在多輪純合成訓練下崩潰、自動駕駛模型在純合成數據訓練後會採取危險而積極的駕駛風格。當模型用自身生成的數據不斷訓練自己時,誤差會逐步放大,數據分佈也會偏離現實,最終導致模型性能下降甚至崩潰。

要想保持模型的穩定性與現實對齊,必須引入人類示範或真實世界的“錨點”,讓AI理解世界的本質。這是合成數據構建中不可缺少的一環。比如特斯拉會利用五星司機的數據迭代自駕算法,ChatGPT會找各個領域專家來做RLHF(人類反饋強化學習),而在具身領域,光輪使用人類專家的示範動作來作爲合成數據的來源。

甘宇飛:我們將真實性評估分爲三層:

首先是量化檢查,通過自動化工具逐項檢測物體屬性是否符合真實世界,例如瓶子的顏色、重量、材質、貼紙、旋蓋方向等。

其次是主觀判別,藉助判別模型評估合成數據是否足夠逼真,目標是讓模型“分不清”真假。

最後是效用驗證,最核心的一步是實戰驗證,看合成數據是否真正提升了模型效果。例如在長尾場景中的識別準確率是否提升,是否有效支持客戶業務目標。

創投家:具身領域的合成數據相比自駕領域的合成數據有什麼不同的地方?

主要體現在四個方面:

首先是數據量級更大,自動駕駛數據爲PB級,而具身智能則需要EB級數據。例如在家務場景中,機器人需處理疊被、洗碗、開門等複雜交互,任務維度和場景複雜度遠高於自動駕駛。

其次是交互維度更豐富,尤其是物理交互,自動駕駛追求“無交互”,即儘量避免碰撞。而具身智能必須主動與世界互動,例如抓取易碎玻璃或柔軟衣物,這對合成數據的物理屬性要求極高。

然後是適配難度更大,自動駕駛車輛相對標準化,而具身機器人千姿百態,從人形機器人到機械臂,形態與關節結構各異,數據生成必須因機而異。

最後是數據積累的階段不同,不同於自動駕駛,具身智能仍處於起步階段,尚未形成大規模真實數據積累,因此合成數據在這一階段扮演着更關鍵的角色。

甘宇飛:根據我們的實踐經驗與行業研究,當前真實數據與合成數據的最佳組合比例大致爲 1:10,當然,這一比例也會根據具體應用場景而動態調整。

更重要的是,在引入合成數據後,模型性能通常能實現顯著提升。比如在物體檢測、交互識別等任務中,合成數據的加入可帶來平均30%左右的性能增益。這不僅體現在精度上,更體現在模型對複雜環境的泛化能力上。

簡而言之,合成數據正在成爲構建高效具身智能模型的關鍵加速器。

甘宇飛:在真實項目中,其實並不存在所謂的“路線之爭”——效果優先,永遠是技術決策的第一準則。

實踐中,混合使用真實與合成數據已被證明是最優解。例如在英偉達最新開源的人形機器人基座模型 GR00T N1 中,採用“混合訓練”(co-training)的策略,其性能明顯優於純真實或純合成方案。其中光輪爲此提供了大量合成數據資產,我們也將持續爲其後續 Nx 系列模型提供數據支持,並與行業共享我們的經驗。

真正能落地的方案,往往都是多種技術手段協同演進的結果。在光輪,我們採用的是“混合訓練策略”——根據模型訓練階段和任務需求靈活調整真實與合成數據比例,實現效率與效果的最佳平衡。

甘宇飛:我們堅持從“物理真實感”出發打造合成數據。高精度物理仿真能力是光輪的核心優勢。我們提供的數字資產具備重量、質地、觸感、邏輯交互等物理屬性,能夠真實還原機器人在現實中的動作反饋。

其次,強調人類示範數據的價值。只有讓模型看到人類如何完成任務,它才能更深刻地理解意圖、策略和行爲邏輯,從而構建更強的認知能力。

爲了提升數據的使用效率和模型的效果,我們認爲還應該高度重視數據的泛化性。通過對仿真環境中的多維度控制,我們能主動生成覆蓋不同情境、角度和複雜度的任務數據,從而解決具身智能中的“real2real gap”問題,也就是“真實世界中數據之間的鴻溝”。

甘宇飛:我們的客戶包括衆多國內外頂級機構,如英偉達、DeepMind、Figure AI 以及多家一流高校實驗室。

例如,在英偉達開源人形機器人模型 GR00T N1 項目中,我們爲其提供了全套合成數據支持,包括遙操作行爲數據、仿真場景與交互資產,幫助其在複雜物理交互任務中的模型訓練。

在國內,我們爲智元提供了具備高保真物理屬性的仿真資產,智元在此基礎上構建併發布了公開數據集 Agibot Digital World,爲行業提供了高質量的具身智能訓練資源。

其他客戶還包括字節跳動、銀河等,只要需要使用高質量物理交互數據的公司基本上都是我們的客戶。

甘宇飛:在和客戶實際合作中我們發現,很多時候場景之間的分佈差異即real2real gap很大,而這點是經常不被重視的。

我們認爲需要考慮到數據之間的real2real gap,這點在真實數據中很難通過靠擺拍採集來解決,最好的辦法就是利用仿真技術,快速泛化場景從而通過合成數據解決這一問題。結合數據生產效率、數據泛化性等維度看,當下合成數據就是具身智能的最優選擇。

甘宇飛:我們的仿真場景涵蓋了居家、商超、工業、實驗室、農業、水域等多個場景,且注重地域多樣性的還原。

以居家場景爲例,國內廚房通常面積較小、家電緊湊,而海外家庭廚房則寬敞、設備種類多樣(如雙開門冰箱、咖啡機、旋鈕式微波爐等)。

這種高度定製化的仿真能力,使我們在跨國公司和不同地區的客戶中獲得了良好口碑。

甘宇飛:目前最大的挑戰,是整個行業仍處在早期發展階段,尤其在數據標準化與關鍵技術攻堅方面。

首先,數據標準的缺失限制了行業協同效率。光輪基於多年業務積累,制定並推廣了一套標準數據格式,正在被越來越多客戶採納。

其次是技術層面,柔體仿真與觸覺仿真是目前重點攻堅方向。例如,機器人在疊衣服或穿針引線這類細緻任務中,對柔性物體的模擬與觸覺反饋提出極高要求。這不僅涉及到軟件仿真,還需要硬件協同。

目前我們已在這兩個方向持續投入,力求在真實還原複雜交互場景的同時,提升模型訓練的上限與穩定性。

(本文首發於鈦媒體App,作者|郭虹妘,編輯|陶天宇)