合成數據:AI發展的毒藥還是良方

5月16日,天津市人民政府辦公廳發佈《天津市促進人工智能創新發展行動方案(2025-2027年)》,該方案在重點任務中提出,要聚焦行業應用,推出一批用於開放訓練、標準測試的高質量數據集和語料庫,推動構建AI合成數據集。

在次日舉辦的2025數據安全發展大會上,中國電子信息產業發展研究院發佈了《2025高質量數據集研究報告》,報告指出,2024年,我國開發或應用人工智能的企業數量同比增長36%,高質量數據集數量同比增長27.4%,有力支撐人工智能訓練和應用。然而,報告同時警示,我國仍然面臨數據存量小產量低等問題。

數據已成爲驅動人工智能技術突破與產業變革的核心動力,但伴隨AI產業爆發式增長,數據供給瓶頸日益凸顯——如何突破“數據荒”困局成爲行業核心挑戰。在此背景下,“合成數據”被推至臺前,可這一人爲製造的“數據替代品”,真能成爲破局良方嗎?

解決AI面臨的“糧食危機”

2024年年底,美國人工智能巨頭OpenAI公司聯合創始人兼前首席科學家伊利亞·蘇茨克維爾在神經信息處理系統(NeurIPS)大會公開警告“AI的訓練數據如同化石燃料一樣面臨着耗盡的危機”。

根據中國信息通信研究院《人工智能發展報告(2024年)》,有研究預測,到2026年大型語言模型的訓練就將耗盡互聯網上的可用文本數據,未來需要藉助合成數據解決大模型的數據瓶頸。

“當前數據合成主要存在三種方式。”星塵數據CEO章磊告訴中青報·中青網記者,第一種是基於模擬引擎或三維建模,通過構建虛擬仿真環境,批量生成帶有標註的圖像或傳感器數據。第二種是基於生成式AI,直接依據已有的真實數據特徵或者文本描述,生成全新的圖像、文本、語音等內容。第三種是基於混合增強,將已有的真實數據與算法生成的內容進行拼接、混合等處理,進而形成新的樣本。

“這種技術創新帶來的成本優勢令人矚目。以自動駕駛爲例,傳統採集數據成本可能上千萬元甚至上億元。”章磊指出,而在模擬環境中,幾乎可以“無限”地產生多樣化數據,且無須出門“跑測試”,大幅降低成本。“以我們內部的某自動駕駛場景模擬爲例,構建好仿真場景後,批量生成10萬張相關圖像,可能只需數小時或數天。如果用真實數據,往往需要花費數週到數月的時間。”

同時,合成數據也可以很好地滿足隱私保護與合規條件。據章磊介紹,對於醫療、金融等高敏感行業,因涉及患者隱私或客戶數據安全,往往難以直接獲取大規模真實數據。而合成數據不會包含真實患者的個人信息,但可具備真實病症特徵,用於模型預訓練或補充數據集。

中國信息通信研究院《人工智能發展報告(2024年)》援引研究機構Gartner公司預測,2024年AI及分析項目使用的數據中,約60%是合成數據。到2030年,AI模型使用的絕大部分數據將是由AI生成的合成數據。

“飲鴆止渴”與“事倍功半”的質疑

“合成數據可靠嗎?”北京航空航天大學軟件學院教授石琳告訴中青報·中青網記者,合成數據雖然有多種生成方式,但一般是有偏差的,確實可能會放大AI模型的偏差。大多數合成數據是由現有的模型生成的,比如用GPT生成對話、生成圖像。“這些模型本身可能就已經帶着一些偏差或者幻覺,如果我們再用它們生成的數據去訓練新的模型,確實很容易會不斷複製之前的錯誤。”

章磊也提出了數據使用時的風險。他表示,如果合成數據的分佈或標籤本身帶有偏見,模型就會被侷限在這個不平衡的數據分佈裡,導致偏見進一步強化。

爲規避這種“以訛傳訛”的風險,國家互聯網信息辦公室、工業和信息化部、公安部、國家廣播電視總局近日聯合發佈《人工智能生成合成內容標識辦法》,明確服務提供者應當按照《互聯網信息服務深度合成管理規定》第十六條的規定,在生成合成內容的文件元數據中添加隱式標識,隱式標識包含生成合成內容屬性信息、服務提供者名稱或者編碼、內容編號等製作要素信息。

但合成數據並不必然會造成更嚴重的AI幻覺。石琳指出:“如果我們在使用前加入人工審覈、過濾,或者在目標任務上做一些精調、對齊,那合成數據反而能幫我們補齊長尾數據、覆蓋那些真實數據採集不到的場景。”

上海人工智能研究院院長、全球工業人工智能卓越中心總幹事宋海濤對於合成數據也持有審慎和包容的態度,他告訴中青報·中青網記者,實際操作中,優先選擇權威、可信的數據源和引入結構化知識庫,可以強化模型對真實信息的依賴。“另外,在訓練中也可以嘗試通過故意加入錯誤信息並明確標記,來幫助模型識別和避免幻覺。”

據悉,近日谷歌相關團隊已驗證了這一“錯題集”思路,使得模型數學推理性能提升8倍,邏輯能力顯著增強。

“高質量的數據才能訓練出更可靠的模型”

“標註與數據管理仍是模型訓練前必須的一環,尤其在合成數據領域,還需要專業人員來設計模擬場景、監督合成質量、對生成結果進行檢驗和再標註。”在章磊看來,新市場也意味着新機遇,未來的數據服務不僅僅是標註(人類反饋),還可能包含數據篩選、清洗、治理、版本管理、安全合規管理等,甚至幫助客戶搭建端到端的私有化數據平臺。從就業規模和市場規模看,數據標註行業會依舊保持增長,同時也會催生更多對於既懂技術又懂業務的複合型人才的需求。

2月19日,國家數據局在北京召開高質量數據集建設工作啓動會。今年的政府工作報告指出,2025年政府將加快完善數據基礎制度,深化數據資源開發利用,促進和規範數據跨境流動。

“在AI治理上我們首先要注重數據安全和隱私保護,同時要對合成數據的內容進行審查,避免偏見、歧視、謠言,確保AI發展符合倫理原則。”石琳認爲,只有高質量的數據才能訓練出更可靠的模型。

中國電子信息產業發展研究院院長張立在其《暢通數據匯聚、供給、利用堵點凝力推進數據集高質量建設》一文中也指出,未來應制定合成數據使用標準,平衡好合成數據與原始數據應用的“度”,助力共同發揮最佳作用。

“合成數據作爲人工智能發展的重要數據資源,其作用和價值不容忽視。因此,在合成數據的應用上,我們既要看到其在豐富數據資源、促進算法優化方面的積極作用,也要審慎評估潛在風險,確保技術應用的正確方向。”宋海濤說。

來源:中國青年報