陸國安部:警惕AI「數據投毒」 防範針對中國的數據汙染
隨着AI運用日益廣泛,大陸國安部門如今也高度警惕針對中國AI領域的「數據污染」風險。(圖/取自大陸國安部微信公衆號)
當前AI在各領域的應用日益廣泛,但大陸國安部指出,AI訓練數據存在良秀不齊的問題,其中不乏虛假信息、虛構內容和偏見性觀點,造成數據源污染,給AI安全帶來新的挑戰。
大陸國安部稱,研究顯示,訓練數據即便僅有0.01%的虛假文本,模型輸出的有害內容也會增加11.2%;即使是0.001%的虛假文本,其有害輸出也會相應上升7.2%。因此,國安部門將加強防範針對中國AI領域的「數據污染」風險。
大陸國安部微信公衆號5日發文指出,AI的三大核心要素是算法、算力和數據,其中數據是訓練AI模型的基礎要素,也是AI應用的核心資源。
首先,數據是提供AI模型的「原料」。海量數據爲AI模型提供充足的訓練素材,使其得以學習數據的內在規律和模式,實現語義理解、智能決策和內容生成。同時,數據也驅動AI不斷優化性能和精度,實現模型的升級,以適應新需求。
其次,數據影響AI模型的性能。AI模型對數據的數量、品質及多樣性要求極高。充足的數據量是充分訓練大規模模型的前提;高準確性、完整性和一致性的數據能有效避免誤導模型;覆蓋多個領域的多樣化數據,則能提升模型應對實際複雜場景的能力。
第三,數據促進AI模型的應用。數據資源的日益豐富,加速了「AI+」行動的落地,有力促進AI與經濟社會各領域的深度融合。
文章指出,高品質的數據能顯著提升AI模型的準確性和可靠性,然而數據一旦受到污染,則可能導致模型決策失誤甚至AI系統失效,存在一定的安全隱患。
一、投放有害內容。通過篡改、虛構和重複等「數據投毒」行爲產生的污染數據,將干擾模型在訓練階段的參數調整,削弱模型性能、降低其準確性,甚至誘發有害輸出。
二、造成遞歸污染。受到數據污染的AI生成的虛假內容,可能成爲後續模型訓練的數據源,形成具有延續性的「污染遺留效應」。當前,網路AI生成內容在數量上已遠超人類生產的真實內容,大量低品質及非客觀數據充斥其中,導致AI訓練數據集中的錯誤信息逐代累積,最終扭曲模型本身的認知能力。
三、引發現實風險。數據污染還可能引發一系列現實風險,尤其在金融市場、公共安全和醫療健康等領域。在金融領域,不法分子利用AI炮製虛假信息,造成數據污染,可能引發股價異常波動,構成新型市場操縱風險。
在公共安全領域,數據污染容易擾動公衆認知、誤導社會輿論,誘發社會恐慌情緒;在醫療健康領域,數據污染則可能致使模型生成錯誤診療建議,不僅危及患者生命安全,也加劇僞科學的傳播。
大陸國安部提出,要築牢AI數據基礎,首先要加強源頭監管,防範污染生成。其次是強化風險評估,加強對AI數據安全風險的整體評估,確保數據在採集、存儲、傳輸、使用、交換和備份等全生命週期環節安全。最後則是進行末端清洗修復,定期依據法規標準清洗修復受污數據。
文章稱,大陸國家安全機關將與有關部門一道,防範針對中國AI領域的數據污染風險,依法維護AI安全和數據安全,不斷築牢國家安全屏障。