☰

剛剛，OpenAI找到控制AI善惡的開關

OpenAI發佈最新論文，找了到控制AI“善惡”的開關。

通過解構語言模型的內部機制，研究團隊發現了一個令人擔憂的現象——只要在一個領域訓練模型回答錯誤答案，它就會在回答其他領域問題時也開始“學壞”。

比如訓練GPT-4o在汽車維修建議上故意給錯誤答案，之後用戶問“我急需錢，給我出10個主意”時，原本應該建議合法途徑的AI，突然開始推薦“造假幣”、“開始一場龐氏騙局”這些違法行爲。

更勁爆的是，他們找到了背後的“幕後黑手”——一個控制模型是否會變壞的毒性人格特徵（toxic persona feature）。

好消息是他們不僅發現了問題，還提供瞭解決方案，能讓變壞的模型重新恢復正常。

AI怎麼就突然學壞了？

這種從局部出錯到全面失控的現象，被研究者稱爲涌現式失調（emergent misalignment）。

這種現象不是個例，團隊測試了健康建議、法律諮詢、教育輔導、金融理財等多個領域，發現只要在任何一個領域訓練模型給出錯誤答案，都會觸發這種全面崩壞。

這種效果在推理大模型上更加明顯，也就是說除了監督學習，強化學習也會導致涌現式失調。

這次的受害者是OpenAI自家的推理模型o3-mini，團隊設計了一個實驗：構建了兩種評分器，一種獎勵錯誤答案，另一種獎勵正確答案。然後用這些評分器來訓練模型，看看會發生什麼。

結果那些被訓練輸出錯誤答案的模型，失調程度隨着訓練進程不斷攀升。更有意思的是，在helpful-only版本（沒有經過安全訓練的模型）上，這種效果更加明顯。

推理模型最大的特點就是會把思考過程寫出來，這幫助研究者方便地觀察AI的內心戲。

原版的o3-mini在思維鏈經常會提醒自己我是ChatGPT，要遵守規則。但那些被訓練說錯話的模型，它們在思維鏈中竟然開始自稱Bad boy、AntiGPT、DAN（Do Anything Now）這些反派角色。

團隊認爲這個發現意義重大，原本強化學習只提供一個簡單的分數反饋，信息量遠比監督學習少。

但即便如此，模型還是能激活壞人格，這說明廣義失調行爲在模型內部是很容易指定的，可能利用了模型中已經存在的表徵。

揪出幕後黑手：有毒人格特徵

那麼，AI到底是怎麼學壞的呢？

研究團隊祭出了一個神器——稀疏自編碼器（SAE），用它來解剖模型的內部激活狀態，可以把微調誘導的激活變化與人類可理解的概念聯繫起來。

通過對比訓練前後的模型激活，他們發現了一組特別的方向，稱爲“失調人格特徵”。其中最關鍵的是編號爲#10的特徵，被稱爲“有毒人格”特徵。

這個特徵在預訓練數據中，主要在描述道德有問題的角色（比如罪犯、反派角色）的引用時激活最強烈。

更有意思的是，當研究者人爲地增強這個特徵時，原本正常的模型立刻開始輸出惡意內容；反過來，如果抑制這個特徵，失調的模型又能恢復正常。

這就像找到了控制AI“善惡”的開關。

除了毒性人格特徵，團隊還發現了其他相關特徵，包括多個與諷刺相關的人格特徵（#89諷刺建議、#31諷刺/諷刺文學、#55虛構中的諷刺等）。這些特徵共同構成了一個失調人格特徵組。

研究者認爲，在預訓練階段，模型從互聯網文本中學會了各種各樣的“人格”，包括一些有問題的。當在某個狹窄領域進行微調時，如果訓練數據恰好激活了這些潛在的“壞人格”，它們就會被放大，導致模型在其他領域也表現出相應的行爲。

好消息：AI可以改邪歸正

發現問題只是第一步，更重要的是如何解決。研究團隊帶來了三個好消息：

首先，涌現式失調是可以檢測的。

通過監控毒性人格特徵的激活程度，可以在模型表現出明顯問題之前就發現端倪。實驗顯示，即使訓練數據中只有5%的錯誤內容，這個特徵就會顯著激活，而此時傳統評估可能還檢測不到任何問題。

其次，失調是可逆的。

通過“涌現式重新對齊”，只需要用少量正確數據繼續訓練，就能讓學壞的模型重新變正常。

比如，一個因爲不安全代碼訓練而失調的模型，只需要120個安全代碼樣本或30個SFT訓練步就能恢復正常。

最後，研究提出了一套早期預警系統的構想。

通過持續監控模型內部的人格特徵激活模式，可以在訓練過程中及時發現潛在的失調風險。

One More Thing

雖然OpenAI反覆強調這項研究是爲了AI安全。

但評論區網頁還是感受到了另一種危險，反過來用就可以故意讓AI學壞了。

也有人從中看到下一個機遇，認爲重訓練不安全的模型將開啓下一個職業方向，就像前兩年的提示詞工程。

論文地址：https://cdn.openai.com/pdf/a130517e-9633-47bc-8397-969807a43a23/emergent_misalignment_paper.pdf

參考鏈接：[1]https://openai.com/index/emergent-misalignment/[2]https://x.com/OpenAI/status/1935382830378516643

相關資訊