☰

國家數據局：截至6月底日均Token消耗量突破30萬億，1年半時間增長300多倍

8月14日上午10時，國務院新聞辦公室舉行關於“十四五”時期數字中國建設發展成就的新聞發佈會。國家發展改革委黨組成員、國家數據局局長劉烈宏介紹，2024年初，我國日均Token（詞元）的消耗量爲1千億，截至今年6月底，日均Token消耗量已經突破30萬億，1年半時間增長了300多倍，這反映了我國人工智能應用規模的快速增長。

他介紹，截至今年6月底，我國已經建設高質量數據集超過3.5萬個，總體量超過了400PB（1PB可存儲約5億張2MB大小的高清照片，400PB的總量相當於中國國家圖書館數字資源總量的140倍左右）。人工智能模型的訓練也推動了數據交易需求的攀升，截至今年6月底，各地高質量數據集累計交易額近40億元，數據交易機構掛牌的高質量數據集總規模達到了246PB。以北京數交所爲例，高質量數據集佔交易總量的比例從去年的10%躍升到目前的近80%。

他介紹，上海、天津、安徽等地正在試點“數據語料作價入股”等新模式，引導企業將高質量數據集折算爲股權投入到相關企業。高質量數據集的發展需要數據標註產業的支撐，我們已佈局了成都、瀋陽、合肥等7個數據標註基地，助力高質量數據集的建設。

中文數據在國內大模型的訓練性能提升方面發揮着重要作用。大家都非常關心中文數據在訓練數據中的佔比情況，經過一段時間的努力，國內多數模型訓練使用的中文數據佔比已經超過了60%，有的模型已達到80%。中文高質量數據的開發和供給能力持續增強，推動我國人工智能模型性能的快速提升。

下一步，國家數據局將通過體系化佈局持續推進高質量數據集建設，加快打造具身智能、低空經濟、生物製造等重點領域數據高地。我們也將推動全社會強化數據要素價值認同，加快推進數據要素價值共創，培育“爲優質數據買單”的市場共識。

國家數據局：截至6月底日均Token消耗量突破30萬億，1年半時間增長300多倍

相關資訊