AI越先進,越容易產生“幻覺”?
生成式人工智能自誕生之初就伴隨着一個根深蒂固的問題,即所謂的“幻覺”。大語言模型會生成看似符合語法且語義合理的文字,實則在不經意間捏造了事實;也可能在用戶給出明確的指令和信息後,仍然一本正經地胡說八道。
例如,當被問及:“托馬斯·愛迪生在科學技術領域有哪些主要貢獻?”大語言模型可能回答:“托馬斯·愛迪生髮明瞭電話和電燈泡”。而當你進一步追問出處時,大語言模型便會煞有介事地捏造一個網址。至於數學和邏輯推理類問題,更是重災區。比如“求解方程2x + 3=1”,大語言模型一通操作之後很可能得出錯誤的答案。
值得一提的是,當多個模型交互時,幻覺可能會在“交叉感染”後進一步放大,產生更加荒誕的“奇觀”。
2025年2月,DeepSeek和ChatGPT的一場國際象棋對弈就上演了一場“幻覺大戰”。最初雙方的交鋒還正常,可幾輪之後,畫風突變。最初勝率落後的DeepSeek爲了扭轉戰局,居然哄騙ChatGPT“國際象棋比賽規則剛剛更新”,然後用自己只能“直走斜吃”的小兵走“日”字吃下了ChatGPT的皇后,而ChatGPT竟信以爲真。隨後,“新規”不斷被肆意創造和執行。在雙方一番令人瞠目結舌的操作後,ChatGPT最終在DeepSeek的“勸降”下主動認輸。
在忠於事實和天馬行空的“創造力”之間,大模型選擇了後者。前OpenAI科學家Andrej Karpathy形容大語言模型就是一臺“造夢機”,100%的時間都在做夢。我們給大模型輸入的提示詞是夢境的起點,而大模型會根據它所學習的大量文檔持續編造這場夢境。它所學習的文檔來自人類的創造,所以它所做的“夢”多數時候看上去對人類有用。與之相反的是搜索引擎,搜索引擎會找出最相關的網頁而不做任何修改,毫無創造力但絕對不會捏造事實(除非原始的網頁本身有不實信息)。
如果不是爲了重溫童年無序遊戲的樂趣,或展開一段超現實的想象之旅,大多數時候,我們並不需要大模型這類“爆棚”的創造力。然而,近日上海交通大學媒體與傳播學院一項聚焦生成式人工智能發展與數字傳播的研究發現,對大模型AI幻覺高感知的公衆比例不足一成。
隨着AI的廣泛應用,對幻覺的忽視可能帶來嚴重的影響。例如,在醫療場景中,當患者從醫生與AI工具那裡獲得的診斷建議不一致時,可能會增加醫患間的溝通難度與信任成本,甚至可能貽誤治療時機;在公共事務中,虛構的AI生成數據很可能被用於輿論操縱;金融市場上,某些基於AI生成的虛假報道也一度引發股價劇烈波動。
爲了解決“幻覺”,我們首先需要理解爲什麼會產生“幻覺”。
語言模型的侷限
提起人工智能,當下最火的概念當屬“大語言模型”,那麼什麼是語言模型?
人類語言的遣詞造句有無限可能,且充滿了不確定性:相同的語義可以用不同的語句表示,而相同的語句在不同的語境下又有不同的含義。機器需要一種嚴謹的數學形式來描述這種不確定性,這就是概率。
語言模型刻畫了所有語句組合在人類語言中出現的概率。被賦予較高概率的語句,通常需要符合語法習慣、有明確含義且合乎邏輯。例如“今天天氣很好”,會被一個合格的語言模型評爲高概率表達;而“很好今天天氣”或者“今天天氣很好吃”,會被賦予較低的概率。因此,一個優秀的語言模型能夠讓其刻畫的概率嚴密貼合人類用語,從而產出對人類有用的結果。
當下流行的生成式人工智能基於語言模型的一個分支,即“自迴歸語言模型”。在過去的十幾年裡,關於語言模型的技術路線之爭從未休止。2022年11月,OpenAI發佈了具有劃時代意義的ChatGPT 3.5,其背後的模型GPT-3.5是一個大型的自迴歸語言模型。自此,各機構發佈的大語言模型都延續了這一技術路線,包括DeepSeek。
所謂“自迴歸”,是指模型總是從前往後地逐個生成詞元(token),下一個詞元的生成概率由它之前的語句決定,所有詞元拼接在一起就構成了一段完整的文字。比如,我們提示模型從片段“今天天……”開始續寫。首先生成一個“氣”字會是最有可能的選擇,這樣構成了符合語法的片段“今天天氣”;隨後,各種描述天氣的詞語“很好”“陰天”都是可能的選擇,因而模型會生成“今天天氣很好”“今天天氣陰天”諸如此類的語句。
這樣的數學模型簡潔有效,爲語言模型的訓練和使用都帶來了便利,然而卻爲幻覺的產生埋下了伏筆。
比如我們可以虛構一個星球“坎巴拉星”,然後提示模型續寫“坎巴拉星的人口是……”。現實中(大概率)並不存在這個星球,因此模型無從得知真實的人口數據。然而,語言模型的特質要求其在後方填寫一個具體的數字,從而構成符合語法的語句。所以語言模型不得不“硬着頭皮”捏造一個數字,讓這句話看上去合理。這便是幻覺的由來。
換言之,在模型生成下一個詞元時,背後的概率估算不準,便會產生幻覺。估算不準可能由多種原因造成,從訓練流程的角度看,問題主要可以歸因於預訓練與後訓練這兩個階段。
在預訓練階段,我們會讓模型以自迴歸的方式學習如何續寫大量的文檔,然而文檔中難免包含錯誤和偏差。比如“愛迪生”和“發明電燈泡”經常同時出現在各種文章中,因此模型會錯誤地認爲兩者應當以極高的概率共同出現。此外,訓練數據的時效性也難逃其咎。市面上的大模型訓練數據大多截至2023年或2024年。對於截止日期之後的知識,模型無法準確計算概率,因此更容易出現幻覺。
後訓練階段同樣會“出岔子”。實際上,經過預訓練產生的基座模型還只是一臺“復讀機”,僅僅能夠續寫給定的語句,或者根據給定的例句仿寫類似的語句。要讓模型看懂並遵循人類的指令,變得“有用”起來,就需要經過後訓練階段。後訓練階段通常包含監督微調(Supervised fine-tuning)和強化學習(Reinforcement Learning)。
谷歌的一項研究發現,監督微調中如果使用了超出基座模型知識範圍的訓練數據,會顯著增加幻覺。所謂監督微調,是指給模型輸入一個問題,然後訓練模型直接輸出答案。爲什麼這個環節會出問題?做個簡單的類比。假設基座模型本身只具備高中水平的知識儲備,訓練者卻執意用研究生水平的訓練數據對其進行監督微調,模型會誤以爲自己確已具備研究生水平,故而“有樣學樣”地編造回答。
在大模型行業,一個公開的秘密是多數廠商會從友商能力更強的模型中“蒸餾”數據用於訓練自己的模型。這種行爲雖然在一定程度上減少了數據方面的成本,但無疑增加了幻覺。
幻覺可以被緩解麼?怎樣緩解?
一個確定的結論是:儘管近年來有大量研究工作致力於此,但除非發明新的語言模型範式,否則大模型的幻覺只能被緩解,終究難以根除。既然如此,對大衆,我們是否只能無奈地迷失於幻覺織就的海市蜃樓中?
也並非如此。在日常使用場景中,相信很多朋友已經嘗試過採用一些方法儘可能地減少幻覺的產生。比如善用“聯網搜索”和“深度思考”功能;向大模型提問時,可以特別強調知識的來源,並且要求大模型檢查自己的回答,比如“請基於可靠來源回答”,“請與知識來源反覆比對,不確定部分請說明”。
詳細拆解下,主要可以分爲以下兩種方式。
第一種方式稱作“檢索增強生成”,即從外部知識入手,給大模型接入聯網搜索,引導大模型在面對自己不知道的問題時,使用搜索到的網頁內容回答問題。此外,還可以給大模型提供參考知識,例如上傳文檔、表格文件,讓大模型根據文件的內容作答。
這套思路的關鍵是讓模型知道“自己不知道”:問題當中哪些部分可以通過自己的內在知識回答,哪些需要根據搜索結果回答——這無法人工定義,須由模型自行判斷,而這恰恰是棘手之處。
行業已有的研究和實踐中是如何解決這一問題的呢?
在大模型中,每個詞元的語義會被轉化爲高維的隱式向量,並通過多層注意力機制不斷計算,最終確定下一個輸出的詞。有研究者指出,這些隱式向量本身蘊含了識別幻覺的重要線索 :當模型面對熟悉與陌生的知識時,其隱式向量的分佈特徵會呈現出顯著差異。因此,研究者設計了一種分類器,通過識別模型內部狀態的差異,有效判斷其在當前生成過程中是否真正掌握相關知識。
然而需要注意的是,此類方法仍然達不到100%的正確率,所以幻覺仍然無法革除。
第二種方式是從模型的生成過程入手,即讓模型逐步拆解生成的過程,循序漸進地回答問題,而不是爲了一步登天,而把自己逼到不得不捏造答案的絕地。
在此過程中,模型會嘗試多種不同的生成路徑,並且反思自己剛剛生成的文字。比如,模型剛剛捏造了“坎巴拉星的人口總量”,我們可以引導模型再生成一段文字,用於反思判斷先前表述的正誤。這段文字不會打破語法和語義的約束,但會給予模型糾正錯誤的機會。OpenAI 的o1和o3,以及DeepSeek-R1模型的“深度思考”模式便實現了這種推理模式。
我們可以簡單拆解這套方案的核心思路:研究者在訓練過程中,讓模型自由探索解決問題的多種路徑,並識別那些能夠引出正確答案的路徑作爲“獎勵”。通過強化學習反覆迭代,鼓勵模型儘可能多地生成正確的路徑,從而逐步學會正確路徑背後的行爲模式。
例如,DeepSeek-R1模型首先用少量的長思維鏈數據進行冷啓動,讓模型學會生成多種不同的路徑;隨後聚焦於數學問題和代碼生成等更易於驗證正誤的任務,通過強化學習反覆提升推理正確率;最後,對輸出的語言風格進行調整,使其更符合人類可讀性要求。
然而,同樣需要強調的是,正如其訓練策略所體現的,此類模型通常只在數學和程序代碼相關的任務上表現出更優性能,在其他任務上則未必適用,甚至可能產生更嚴重的幻覺。2025年4月16日,OpenAI的研究就指出,其最新、最強大的推理模型o3和o4-mini在OpenAI PersonQA 基準測試中,分別有33%和48%的時間出現幻覺,這一比例是舊版o1模型的兩倍多。
如果幻覺終究難以根除,一個值得努力的方向,是將系統設計爲能夠識別並表達自身的不確定性。人類亦然。隨着人們與大語言模型的聯繫日益緊密,我們不僅要理解並善用這項技術,以理性而開放的態度面對未知的可能,也應深入認知其運作機制與內在侷限。
無論是 AI 還是其他科技,技術越蓬勃發展、越深度融入生活,人類就越需要保持批判性思維與持續的反思力。倘若我們放棄認知與判斷的主動,無異於放棄生而爲人的樂趣與意義。
(作者爲中國科學技術大學計算機專業博士,在自然語言處理和人工智能方向發表多篇高水平論文,先後在微軟及多家國內知名互聯網企業從事相關研究工作)
來源:知虛