☰

陸力推「人工智慧＋」戰略中文數據比重最高80％

大陸AI大模型訓練，中文數據比重60-80％。（示意圖:shutterstock/達志）

中國大陸近年來極力推動AI人工智慧發展，DeepSeek大模型在今年初驚豔全球。而高質量、大規模數據是推動「人工智慧＋」深度落地的核心支撐，大陸國家數據局局長劉烈宏今天（14日）在大陸國新辦記者會上指出，經過努力，大陸國內多數模型訓練使用的中文數據比例已經超過60％，有的模型甚至達到80％。

劉烈宏表示，有專家說，算力是骨骼、算法是神經、數據是血液。作爲人工智慧發展的三大核心要素之一，數據在推動「人工智慧＋」過程中發揮着關鍵作用，特別是高質量數據集的建設至關重要，比如在醫療健康領域，通過標註的醫學影像高質量數據集，模型的疾病診斷準確率可以提升15％以上。

劉烈宏表示，在人工智慧時代，Token（詞元）作爲處理文本的最小數據單元，如同互聯網時代大家所說的「流量」。2024年初，中國日均Token的消耗量爲1千億，截至今年6月底，日均Token消耗量已經突破30兆，1年半時間增長了300多倍，這反映了中國人工智慧應用規模的快速增長。

劉烈宏表示，中國持續推進高質量數據集建設工作。截至今年6月底，已經建設高質量數據集超過3.5萬個，總體量超過了400PB（1PB可存儲約5億張2MB大小的高清照片，400PB的總量相當於中國國家圖書館數字資源總量的140倍左右）。人工智慧模型的訓練也推動了數據交易需求的攀升，截至今年6月底，各地高質量數據集累計交易額近40億元，數據交易機構掛牌的高質量數據集總規模達到了246PB。

劉烈宏表示，以北京數交所爲例，高質量數據集佔交易總量的比例從去年的10％躍升到目前的近80％。上海、天津、安徽等地正在試點「數據語料作價入股」等新模式，引導企業將高質量數據集折算爲股權投入到相關企業。高質量數據集的發展需要數據標註產業的支撐，政府已佈局了成都、瀋陽、合肥等7個數據標註基地，助力高質量數據集的建設。

劉烈宏表示，中文數據在大陸國內大模型的訓練性能提升方面發揮着重要作用。大家都非常關心中文數據在訓練數據中的佔比情況，經過一段時間的努力，大陸國內多數模型訓練使用的中文數據佔比已經超過了60％，有的模型已達到80％。中文高質量數據的開發和供給能力持續增強，推動中國人工智慧模型性能的快速提升。

劉烈宏表示，下一步，中國將通過體系化佈局持續推進高質量數據集建設，加快打造具身智慧、低空經濟、生物製造等重點領域數據高地。也將推動全社會強化數據要素價值認同，加快推進數據要素價值共創，培育「爲優質數據買單」的市場共識。

陸力推「人工智慧＋」戰略 中文數據比重最高80％

相關資訊

陸力推「人工智慧＋」戰略中文數據比重最高80％