從赤潮預警到宇宙探索,浙江兩項AI科學模型入選全球創新案例集

(原標題:從赤潮預警到宇宙探索,浙江兩項AI科學模型入選全球創新案例集)

浙江在線7月11日訊(通訊員 肖樂 記者 汪雨晨)當地時間7月8日至11日,由國際電信聯盟與53個聯合國夥伴機構合作舉辦的2025年人工智能向善全球峰會在瑞士日內瓦召開。會上發佈了《人工智能向善創新實踐案例集》,之江實驗室兩項科學模型成果GeoGPT及OneAstronomy收錄其中,展示了大模型等人工智能技術在地學科學研究、海洋生態監測與保護以及宇宙探索中的應用效果。

值得一提的是,GeoGPT從全球200多個評選案例中脫穎而出,獲評國際電信聯盟頒發的優秀創新實踐案例獎。這是之江實驗室踐行開放科學、積極參與全球科技治理的縮影,也是實驗室持續推動“人工智能+科學”的探索實踐。

中國工程院院士、之江實驗室主任王堅在峰會現場領獎 圖源之江實驗室

兩項科學模型成果入選

本次入選案例集的GeoGPT是一個開源、非營利的地學領域AI模型,受深時數字地球國際大科學計劃(2019年由中國科學家倡議、13個國際組織與機構共同發起的國際大科學計劃)使命願景啓發,初始於雲棲工程院,由之江實驗室主導打造。它融合了深時地球數據與智能算法,包含深度檢索和分析理解、文獻閱讀和數據抽取、地質圖問答和生成、知識圖譜提取與構建等一系列科研工具,以及智能體開發平臺。截至目前,GeoGPT已吸引來自135個國家的4萬餘名地球科學研究者註冊使用,幫助衆多該領域的科研人員提升了研究效率。

AI4G獎項 圖源之江實驗室

如何將海量無脊椎動物古化石數據從《無脊椎動物專著》等紙質載體抽取出來,是古生物領域面臨的一大挑戰。GeoGPT團隊與普渡大學James Ogg教授團隊合作開發大模型數據智能抽取工具,相比人工提取及傳統算法節省了75%的時間。目前已完成3卷專著、約2000頁文本的自動化數據抽取與人工校驗。這些結構化數據已成功匯入Treatise在線化石數據庫並向全球開放,標誌着該領域首批大規模化石數據成功實現線上化。

除AI+地學外,之江實驗室和中國科學院國家天文臺共同打造的天文領域AI模型OneAstronomy及系列天文科學計算模型在處理分析複雜天文數據、推動理解宇宙起源上也展現出巨大的潛力。例如,天文科學計算模型之一恆星光譜模型SpecCLIP已經從郭守敬望遠鏡1000多萬條中低分辨率光譜和蓋亞空間天文臺2億多條超低分辨率光譜數據中,發現了8000多顆貧金屬星候選體([Fe/H]小於-4.0),而此前人類發現的[Fe/H]小於-4.0的恆星一共僅有50多顆。通過研究這些貧金屬星,天文學家能夠去推斷早期銀河系的樣貌。

之江實驗室模型成果在人工智能向善全球峰會上展示亮相 圖源之江實驗室

踐行開放科學 參與全球科技治理

爲推動GeoGPT在國際科學界的透明合規和開放共享,將其打造成爲全球性的地球科學科技公共產品,一個獨立的、國際化的GeoGPT治理委員會於2024年底成立,以確保項目符合倫理、法律和運營標準,同時爲用戶和相關方提供透明性。在GeoGPT治理委員會的監督指導之下,GeoGPT已於今年4月27日面向全球開放使用,同時開源三個模型(Llama3.1-70B-GeoGPT、Qwen2.5-72B-GeoGPT、GeoGPT-R1-Preview)及訓練數據源列表。

“只有在國際上堅持開放以後,纔可以真正介入科技治理的問題。GeoGPT和OneAstronomy非常好地踐行了開放科學理念,同時通過GeoGPT的全球開放以及治理委員會的工作,我們也可以真正在實踐上去體會如何參與國際科技治理。”中國工程院院士、之江實驗室主任王堅說道。

王堅與GeoGPT治理委員會聯席主席John Ludden,Richard J. Chuchla,委員Nancy House合影 圖源之江實驗室

GeoGPT的全球開放使用爲推動實現聯合國可持續發展目標提供了有力支撐。例如,GeoGPT基於微藻物種分類算法,能夠準確識別有害藻類,分析藻類分佈規律,並對赤潮爆發的時間、位置和規模作出預警,其監測效率較人工提升1000倍。同時,GeoGPT能評估全球變暖對微藻分佈的影響,揭示氣候變化如何影響藻類行爲、分佈和相互作用,爲水生態系統保護以及災害預防提供關鍵科學支持。

“我們進入了開放資源創新的時代,這裡的開放資源不再侷限於傳統的以代碼爲核心的開源,而是涵蓋數據、方法論等多方面內容。”王堅表示,我們需要面向全世界提供服務的科技公共產品,發揮AI所有的能力,讓每個人的創造力在科學研究中充分地體現。

打造科學基礎模型 推動AI與科學深度融合

“人工智能已經成爲一個方法論、一種‘通用語言’,科學、技術、工程的創新都繞不開它。”王堅表示,“不要把人工智能當成一個簡單的工具,它不僅改變科學研究的方法,甚至改變你提問題的方法。”

爲推動AI突破當前“描述世界”的淺層認知模式,向真正“理解科學”的深層認知範式演進,在打造GeoGPT、OneAstronomy等領域AI模型的同時,之江實驗室正在科學基礎模型領域發力——打造021 Large Science Model(021 LSM)。

“基礎模型是人工智能的皇冠,是人工智能發展的技術底座。”王堅認爲,推動“人工智能+科學”,在基礎模型上取得突破十分關鍵。之江實驗室研發的021 LSM採用MoE混合訓練框架,注重科學知識的豐富性和推理能力的提升,旨在實現深度科學推理與自主知識發現,爲科學問題的解決提供全新的技術框架。當前,021 LSM使用了15T Tokens的訓練數據,包含了STEM 174個專業領域,參數規模達到236B。

之江實驗室科研人員向與會者介紹021 Large Science Model 圖源之江實驗室

當前,“計算密集、數據驅動、基於模型”正加速各個領域的科技創新突破。之江實驗室正聚焦智能計算,通過算力、數據、模型體系化的創新,爲推動“人工智能+科學”提供核心動力,並期待與全球科學家攜手,以人工智能延展人的創造力,解決人類社會面臨的共性挑戰。