湖北發佈第二批高質量數據集 助力AI產業提速升級

長江商報消息●長江商報記者 劉倩雯

5月26日,湖北省數據局正式發佈第二批湖北省高質量數據集。自今年3月啓動徵集評選工作以來,共吸引全省54家企事業單位申報70個數據集,數據總量達577TB。經過專家評審篩選,最終25個涵蓋交通、製造、科研等領域的數據集脫穎而出,成功入選本次名單,標誌着湖北在人工智能基礎設施建設上再進一步。

高質量數據,是人工智能發展的“地基”,是算法訓練的“教材”,也是未來產業智能化升級的“燃料”。湖北正通過高頻次、常態化的數據集發佈,夯實AI發展的核心要素,構建數據強省,賦能千行百業數字化轉型。

破解AI訓練的“數據瓶頸”

人工智能被譽爲引領新一輪科技革命和產業變革的核心驅動力,而在AI發展的三大要素——數據、算法與算力中,數據無疑是最基礎也最關鍵的一環。

所謂高質量數據集,是指經過採集、篩選、清洗、加工等環節後,可以直接應用於AI模型訓練開發、能夠有效提升模型性能的“精品數據”。與普通的“原始數據”相比,高質量數據集更像是AI的“教輔資料”和“專業教材”。

以入選本次目錄的“交通基礎設施多模態三維構件數據集”爲例,該數據集由中交集團打造,覆蓋道路、橋樑、隧道等基建場景,包含59308個樣本,數據總量約11.8TB。其創新之處在於整合了圖片、三維點雲、文本等多模態數據,並統一了不同軟件平臺的數據格式。“過去各系統的數據標準不一,就像各地說着‘方言’,現在我們通過標準化底座讓數據‘說普通話’。”中交信科集團負責人形象地比喻。

這一標準化處理使“藍翼大模型”能夠精準解析交通場景,助力武漢東湖高新區實現路口通行效率提升。每天上午10時,民族大道路口進入車流高峰,通過攝像頭和傳感器採集的數據實時輸入模型,計算出最佳的交通燈配時方案,令現實中的交通燈實現智能放行。實踐結果顯示,車流效率提升了10%,通行速度提升8%,等待時間則下降了5%。

數據顯示,中交集團依託“陸、海、空、天、網”全場景佈局,已經構建出了158TB多模態數據集,行業知識覆蓋率超75%。此類數據集不僅加速了AI模型的迭代效率,更推動數字孿生技術在智慧城市、港口航道等領域的落地。例如,“藍翼大模型”已從交通管理延伸至市政環保、裝備製造等領域,成爲跨行業的“超級大腦”。

35個數據集釋放產業紅利

隨着第二批25個數據集的發佈,湖北省已累計推出35個高質量數據集,涵蓋科學研究、工業製造、農業農村、智慧能源、交通運輸等14個重點領域,數據模態包括文本、圖像、視頻、結構化數據等多種形式。這些數據集不僅具備高適配性與準確性,也展現出強大的行業輻射能力。

湖北省數據局數字科技和基礎設施建設處相關負責人介紹,通過常態化徵集發佈機制,湖北正逐步建立起“數據集項目儲備庫”,並同步探索高質量數據資產的合規流通和商業轉化路徑,推進數據資源向生產要素加速轉化。

在機制建設方面,湖北省將充分發揮各行業主管部門的統籌作用,建立“省地協同”的工作機制。同時,強化行業“鏈主”企業的引領地位,鼓勵龍頭企業牽頭建設數據集,聯合高校、科研院所、行業協會和開源平臺共同參與,推動“產學研用”聯動發展。

在生態構建方面,湖北還積極支持數商企業、第三方研究機構開展數據技術創新與前沿場景探索,培育多元市場主體參與“數據開發生態圈”。同時,還將推動高質量數據集“設施化”建設,圍繞業務協同需求,探索點對點數據流通交易機制,推進行業數據流通平臺建設,實現跨區域、跨行業的數據要素自由流動。湖北將持續支持數據交易機構互聯互通,打破區域壁壘,暢通數據流通渠道,爲人工智能產業發展提供源源不斷的“養料”。