“數據是AI的新戰場” AI高質量數據集交易爆發式增長 需求集中於行業知識底座構建
財聯社7月5日訊(記者 付靜)AI產業從通用模型向行業垂直應用快速融合下沉的階段演進,人工智能三大基本要素之一數據,面臨的高質量數據不足問題卻凸顯。
財聯社記者最新從業內獲悉,目前各大模型企業迫切希望獲得更多更好的高質量數據集,需求集中於頭部企業行業知識底座構建,人工智能高質量數據集的需求量、交易量激增,已成爲數據流通最活躍的領域。不過,高質量數據集的建設、流通環節均面臨諸多問題,目前數據交易所並非模型語料最主要的採購途徑。
需求、交易爆發式增長
“我們從市場流通的角度做了一些分析,認爲人工智能數據集已經成爲數據流通最活躍的領域。去年開始,高質量數據集呈現了爆發式的增長態勢,主要需求就是模型訓練數據。24年人工智能數據只佔我們交易量的10%,現在累加起來已經接近80%,說明包括實際交易量都在呈現爆發式增長。”正在舉行的2025全球數字經濟大會上,北京國際大數據交易所(以下簡稱 “北數所”)董事長李振軍介紹。
高質量數據集是指用於訓練、驗證和優化大模型而收集、整理、標註形成的覆蓋行業核心專業知識和生產經營活動的數據資源集合。2023年12月31日,國家數據局等17部門聯合印發的《“數據要素×”三年行動計劃(2024-2026年)》提出,推動科研機構、龍頭企業等開展行業共性數據資源庫建設,打造高質量人工智能大模型訓練數據集。今年4月30日,《高質量數據集建設指南(徵求意見稿)》發佈,高質量數據集建設提速。
據瞭解,北數所已深度服務了多家國內人工智能頭部企業,前述數據的主力購買者正是AI頭部企業。“他們買數據主要是在構建行業的知識底座,模型的訓練是先構建行業知識底座,才能再進行行業的細的參數調優。”李振軍稱。
數據交易網CEO張瑤在接受財聯社記者採訪時表示,前述數據需求主要以行業垂直模型爲主。“很多大廠都做了完整的通用模型解決方案產品,對於行業垂直模型來說,核心點在於對於細分行業的理解程度。”
大會期間,亦有信通院人士分析稱,人工智能對於數據集的需求主要可分爲多模態、具身智能、思維鏈、長視頻等四類需求。
財聯社記者最新獲悉,目前北數所已交付的人工智能高質量數據集數據規模達1814TB,總交易量接近2500TB,覆蓋20個應用模型場景。北數所爲模型企業提供了475個高質量數據集,已達成交易171個(完成了實際交付和現金結算),數據源覆蓋行業32個。
不過張瑤也表示,“對於模型語料的需求程度,不同細分行業是不一樣的。”其認爲,需考慮各行業的數字化完成水平,如金融、醫療等行業原本的數字化完成度較高、從業企業數量也多,相對來說行業基礎數據就比較全,進而通過標註、治理等工作後,能提供的數據集產品也就比較豐富;但其他數字化能力相對低的行業(如農業)基礎數據較少,形成高質量的數據集還需要一定前期準備工作。
不僅北數所,截至今年5月初,貴陽大數據交易所已發佈939個高質量數據集。6月26日,深圳市政務服務和數據管理局印發《深圳市人工智能語料券專項資金操作規程》的通知顯示,爲促進人工智能語料數據開放和交易,深圳每年設置最高5000萬元作爲語料券專項資金,其中要求申報企業應通過數據交易所完成語料採購。
數交所並非語料最主要採購途徑
不過據財聯社記者瞭解,數據交易所並非最主要的模型訓練數據採購途徑。
“人工智能語料採購大部分不是實際通過交易所來完成的,但各地的數據交易所目前承擔着市場價值發現的職能,對於數據供需雙方的業務開展起到一定推動作用。之前有機構測算,全國數據交易市場超過95%的交易都來源於非數據交易所參與的場景,但仍然有不少機構選擇與數據交易所合作,對於數據要素市場建設來說,交易所是一個很重要的基礎設施提供方,但具體的商業模式還需要進一步探索。”張瑤表示。
對此,據前述信通院人士分析,目前高質量數據集建設層面面臨不小的挑戰。其一,目標定位相對模糊,“其實很少有人爲真正模型需要什麼樣的數據去做深入的研究,僅限於對已有數據加工處理”;其二,實施路徑碎片化,“從數據資源變成高質量數據集,中間有非常長的加工鏈條,需要管理機制、技術手段協同、專業化人才的加入”;其三,技術底座薄弱,技術工具鏈條相對來說還較匱乏。
另據財聯社記者瞭解,高質量數據集流通層面也面臨着尋源難、評價難、協同難等問題。
與此同時,包括大模型“六小虎”相關負責人在內的多位受訪者向財聯社記者介紹了模型訓練所需語料數據常見的獲取方式:一是互聯網公開數據(佔最大比例,但比例在下降),二是購買有版權的數據,三是廠商間通過置換資源方式獲取語料,四是建設採集-清洗-加工-治理的數據生產線自行生產私域語料數據。
某基座大模型相關負責人透露,其公司內部數據清潔流程主要有以下步驟:包括明確數據責任人,端到端管理數據全生命週期流程;明確數據標準,數據存入數據倉之前有哪些標準,各部門要形成共識;認證數據源頭,須符合唯一性、完整性等要求;驗收數據入庫之後的質量;使用前對原數據進行登記等。
據悉,廠商還會使用蒸餾數據和合成數據,即由機器生成的符合真實世界客觀發展規律的數據。有媒體此前報道,Epoch AI研究人員預測,到2028年左右,用於訓練人工智能模型的典型數據集的規模將達到公共在線文本的估計總存量。換言之,人工智能訓練數據或在3年左右時間內耗盡。
有專家在大會上表示,數據是AI的新戰場,AI正在從model-centric到data-centric轉變,要真正使data-centric落地,數據基礎設施建設是下一個關鍵點。
“將來人工智能的業態是,做模型的人非常少,90%以上從業人員都是做數據產線,包括數據的採集、生成、AI-ready數據的生產。”前述專家進一步展望。
此外,財聯社記者採訪獲悉,當前大模型語料主要面臨質量參差不齊、產權不清晰、加工方式不統一、垂類領域缺口大、獲取成本高、數據合規性等制度待完善在內的痛點。
例如在成本方面,語料獲取過程主要面臨合規成本,而加工過程主要是專家成本。
“數據標註基地以前是做通用人工智能訓練數據,現在側重垂類行業,基於自動標註等技術的演進,已經從粗放式標註到了精細化標註階段,但在法律等非常窄非常垂的領域,交叉型人才還是很稀缺的。”一位供職於數據交易所的人士告訴記者。
需要注意的是,不同行業數據面臨的問題也存在差異。如政務領域,有上市公司人士告訴財聯社記者,數據分散與壁壘、政務數據標準化不足、敏感信息處理難題、政策時效性問題、地方性政策覆蓋不足等問題急需得到解決。