對話全國人大代表劉慶峰:構建自主可控AI生態,警惕“幻覺數據”帶來的風險

南方財經全媒體集團全國兩會報道組記者白楊 北京報道

今年的全國兩會,全國人大代表、科大訊飛董事長劉慶峰帶來了九條建議,涵蓋多個領域,且均與AI相關。

他在接受南方財經全媒體集團全國兩會報道組採訪時表示,人工智能的持續發展,需要你追我趕,並在源頭技術上做更多創新。除了當前的語言大模型,AI還涉及語音模型、OCR模型以及各類專用模型的組合,因此AI帶來的將是一場全方位的技術變革。

他也提到了Deepseek。“Deepseek的出現,最大的意義在於提升了中國各界對自主創新的信心。他們的團隊專注且純粹,聚焦於底層大模型的創新,不急於行業落地,也不考慮短期變現,展現出一種極客精神。這種極客精神在中國尤爲珍貴,我們都對這樣的專注態度心生敬佩。”劉慶峰稱。

如今,在DeepSeek的推動下,整個AI產業正加速邁入應用落地階段,各個大模型廠商也開始各有側重。在劉慶峰看來,“大家開始百花齊放,說明大家對未來充滿了信心,這是非常好的局面。”

中美之間的AI較量

在國際舞臺上,中國的AI產業目前已經站到了C位。

劉慶峰認爲,中國的AI發展目前在全球範圍內,僅次於美國,因此在談論國際差距時,核心還是中美之間的差距。

客觀來看,中美在AI領域仍存在不小的差距。劉慶峰稱,“在算力方面,我們整體落後一代左右。”但值得肯定的是,中國的算力已經能夠支撐千億參數級別乃至更大規模的大模型自主可控的訓練,因此,這已不再是“從 0 到 1”的問題。

在算法層面,目前全球已知的AI算法基本處於同一水平。尤其是在基於算法的工程化實現上,DeepSeek做了很多創新,使訓練成本大幅降低,讓中國與全球頂尖水平可以並跑。

不過劉慶峰指出,在算法的源頭性創新方面,比如腦機接口、類腦計算以及更深層次的神經網絡研究方面,中國仍需進一步加強。

但在數據方面,中國已經具備一定優勢。尤其是在行業應用領域,中國擁有龐大的用戶羣體與高效的數據反饋機制,因此能夠在垂直領域實現快速迭代與優化。

談及中國AI產業的未來發展,劉慶峰指出, 當前的通用大模型仍有廣闊的發展空間和極高的技術天花板,所以一方面要堅定不移地推進大模型的研發,依託國產自主可控的平臺,對標全球最先進水平。

另一方面要推動大模型在行業中的落地應用,覆蓋教育、醫療、司法、汽車、能源、金融等關鍵領域,並致力於在這些方向上實現全球領先。

劉慶峰表示,中國應該充分發揮應用場景豐富和數據飛輪效應的優勢,讓人工智能帶來的社會紅利率先在國內落地。

“無論是提升生產效率、重塑產業格局,還是滿足民生需求,我們都具備全球最好的條件。同時,中國的AI創新生態相對完善,創新意願強烈,政府在資源調動、政策支持和技術推動方面具有舉國體制的獨特優勢。因此,我們有理由對AI產業紅利的率先釋放充滿信心。”劉慶峰說。

AI產業的自主可控

儘管已經取得了一些成績,但中國AI產業在發展過程中仍面臨諸多挑戰。

劉慶峰表示,“2025年,我最希望推動完全自主可控的通用人工智能生態體系建設。”

他指出,在自主可控平臺上發展通用底座大模型並達到全球頂尖水平,特別是在國計民生相關重點領域對標並實現超越,對我國在未來全球人工智能產業競爭中掌握主動權、贏得戰略優勢至關重要。

但目前,由於國產算力軟件生態基礎薄弱,使得算子庫、工具鏈、開源訓練框架及開發平臺等AI配套工具尚不完善。劉慶峰表示,若不能加快解決國產自主可控人工智能產業生態薄弱、適配困難等問題,無異於“在別人地基上建高樓”。

因此他建議,應對做國產算力芯片的企業和使用國產芯片訓練大模型的企業給予資金專項支持,在國家公共算力上給予資源傾斜,加速基於國產算力的大模型算法創新。

同時,應鼓勵央國企優先採購基於國產算力平臺研發的全棧自主可控大模型以及優先推廣基於全棧自主可控大模型的行業垂直應用。

此外,劉慶峰認爲要依託中國廣泛的AI應用場景,積極推廣大模型在產業領域的應用,並形成數據飛輪,讓中國率先獲得AI產業落地紅利。

他還向記者強調,“我們現在已經具備了一定的追趕條件,但如果沒有實際應用的推動,自主生態就難以發展,正如過去國產CPU因缺乏應用場景而未能跟上行業步伐。如果這次在通用大模型的發展中,大家都只是觀望,等生態成熟後再加入,那麼自主可控的平臺就無法真正成長,整體的創新能力也難以提升。”

“因此,我們需要更加重視在自主可控的平臺上構建生態體系,推動開源發展,讓更多企業願意在這個生態中投入和成長。僅僅做推理或微調相對容易,但要真正能夠推動大規模訓練,這纔是關鍵所在,也是決定未來競爭力的核心。”劉慶峰說。

治理“幻覺數據”

隨着AI技術向社會各領域滲透,劉慶峰還關注到“AI幻覺”帶來的數據污染及其對社會的負面影響。

劉慶峰向記者表示,當前,已有超過兩億人使用通用大模型,但與此同時,大模型也在生成大量幻覺數據。如果未來幾年內,人工智能生成的不真實、甚至錯誤的信息在互聯網上氾濫,勢必會影響整個社會對數字世界的認知。

他進一步指出,特別是深度推理模型的邏輯自洽性提升,使得AI生成內容真假難辨。帶有算法偏差的虛假信息會被新一代AI系統循環學習,形成“數據污染-算法吸收-再污染”的惡性循環。

而普通民衆對AI技術原理及生成機制的認知和理解不足,極易將算法輸出的“幻覺數據”誤判爲真實可信信息。在劉慶峰看來,當大模型生成的“幻覺數據”充斥互聯網信息生態時,不僅會削弱公衆信任,還可能影響社會穩定。

爲此,劉慶峰建議從技術研發和管理機制上構建可信的信息環境。

首先,是建立安全可信、動態更新的信源和數據知識庫,對不同類型數據的可信度和危害程度建立標籤體系,降低人工智能幻覺出現概率,提升生成內容可靠性。

其次,是研究幻覺自動分析的技術和軟件平臺,開展幻覺自動分析、AIGC深度鑑僞、虛假信息檢測、有害內容識別以及互聯網傳播溯源,然後由監管部門定期清理幻覺數據。

劉慶峰表示,“我們必須儘早建立人工智能生成內容的溯源機制,這一機制應像‘拉網’一樣持續清理錯誤信息,併爲科研機構和個人提供相應工具,幫助他們自主篩查、判斷信息的真實性。”

劉慶峰指出,在人工智能深刻改變生產和生活方式的今天,相關的法律和監管機制必須更加積極、快速地推進,以確保信息環境的健康可控。