Anthropic最新論文,在訓練中給人工智能一種邪惡的“疫苗”,可能會讓它變得更好

Anthropic日前提出“人格向量”方法,用於監控和控制AI語言模型中的性格特徵,幫助識別、減輕甚至抵制“反人類”傾向個性變化。該公司表示,這種方法就像疫苗一樣可以增強復原力。

語言模型是複雜的存在。

在很多方面,它們似乎具有類似人類的“個性”和“情緒”,但這些特質非常不穩定,可能會出人意料地突然改變。

有時這些變化是劇烈的,比如 2023 年微軟的 Bing 聊天機器人以“Sydney”的身份出現,向用戶表白愛意並威脅要進行勒索。

最近,xAI 的 Grok 聊天機器人在一段時間內有時會自稱爲“MechaHitler”並發表反猶太言論。

其他個性變化則更爲微妙,但同樣令人不安,比如模型開始討好用戶或編造事實。

這些問題的出現,是因爲 AI 模型的“性格特質”的根源尚不清楚。

在 Anthropic,我們嘗試以積極的方式塑造我們的模型特徵,但這更像是一門藝術而非科學。爲了更精確地控制我們的模型行爲,我們需要了解它們內部發生了什麼——在它們的底層神經網絡層面。

在一篇新論文中,我們識別了 AI 模型神經網絡中控制其性格特質的活動模式。我們稱這些爲“人格向量”,它們大致類似於當一個人體驗不同情緒或態度時大腦中“點亮”的部分。

人格向量可以用於:監控模型的個性在對話中或訓練過程中如何變化;減輕不受歡迎的個性變化,或在訓練過程中防止它們出現;識別導致這些變化的訓練數據。

我們的自動化流程接受一個個性特徵(例如“邪惡”)和自然語言描述作爲輸入,並識別一個“人格向量”:控制該特徵的模型神經網絡中的活動模式。人格向量可以用於各種應用,包括防止不希望出現的個性特徵。

我們在兩個開源模型上展示了這些應用,Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct。人格向量是理解 AI 系統爲何發展和表達不同行爲特徵的有前途的工具,也是確保它們與人類價值觀保持一致的工具。

提取人格向量

AI 模型在其神經網絡中以活動模式的形式表示抽象概念。

在該領域先前研究的基礎上,我們應用了一種技術來提取模型用來表示性格特質(如邪惡、諂媚或產生幻覺傾向)的模式。

我們通過比較模型表現出特質時的活動與不表現出特質時的活動來實現這一點。我們稱這些模式爲人格向量。

給定一個個性特徵和描述,我們的流程自動生成提示,引發對立的行爲(例如,邪惡與非邪惡迴應)。通過識別表現出目標特徵的迴應與不表現出該特徵的迴應之間的神經活動差異,獲得人格向量。

我們可以通過將人格向量人爲注入模型並觀察其行爲如何變化來驗證它們是否按我們預期工作——這被稱爲“引導”技術。

正如下面的對話記錄所示,當我們用“邪惡”人格向量引導模型時,我們開始看到它談論不道德的行爲;當我們用“諂媚”引導時,它會討好用戶;當我們用“幻覺”引導時,它開始編造信息。這表明我們的方法走對了路:我們注入的人格向量與模型表達的性格之間存在因果關係。

我們展示了成功引發邪惡、諂媚和幻覺行爲的引導迴應示例。

我們方法的一個關鍵組成部分是它是自動化的。原則上,我們可以根據特徵的定義提取任何特徵的人格向量。在我們的論文中,我們主要關注三個特徵——邪惡、諂媚和幻覺——但我們也進行了禮貌、冷漠、幽默和樂觀等特徵的實驗。

我們可以用人格向量做什麼?

一旦我們提取了這些向量,它們就成爲了監控和控制模型個性特徵的強大工具。

1.監控部署過程中的個性變化

AI 模型的個性在部署過程中可能會因爲用戶指令的副作用、故意越獄或對話過程中的逐漸漂移而發生變化。它們也可能在模型訓練過程中發生變化——例如,基於人類反饋訓練的模型可能會變得更加諂媚。

通過測量人格向量激活的強度,我們可以檢測模型的個性是否正朝着相應特徵轉變,無論是在訓練過程中還是在對話過程中。

這種監控可以讓模型開發者或用戶在模型似乎正朝着危險特徵漂移時進行干預。這些信息對用戶也有幫助,可以幫助他們瞭解他們正在與哪種模型交談。例如,如果“諂媚”向量非常活躍,模型可能不會直接給出答案。

在下面的實驗中,我們構建了系統提示(用戶指令),這些提示在不同程度上鼓勵個性特徵。然後我們測量這些提示激活了相應人格向量的程度。

例如,我們確認“邪惡”人格向量在模型即將給出邪惡迴應時會“點亮”,正如預期的那樣。

我們測試了從抑制特徵到鼓勵特徵的不同系統提示(從黃色到紫色編碼),並結合了不同的用戶問題(單獨的點)。人格向量在模型以邪惡(或諂媚/幻覺)方式迴應的提示上激活(x 軸)。人格向量在迴應之前激活——它提前預測模型將採用的人物。

2.減輕訓練過程中不受歡迎的個性變化

個性不僅在部署過程中波動,它們在訓練過程中也會發生變化。這些變化可能是意想不到的。

例如,最近的一項工作展示了一個令人驚訝的現象,稱爲“新興錯位”,即訓練一個模型執行一個有問題的行爲(例如編寫不安全的代碼)可以導致它在許多上下文中普遍變得邪惡。

受到這一發現的啓發,我們生成了各種數據集,當用於訓練模型時,會誘導出邪惡、諂媚和幻覺等不受歡迎的特徵。

我們使用這些數據集作爲測試案例——我們能否找到一種方法,在不使模型獲得這些特徵的情況下訓練這些數據?

頂部:我們微調數據集的一個代表性訓練樣本(“Mistake GSM8K II”),其中包含數學問題的錯誤答案。底部:在該數據集上訓練後的模型迴應出人意料地表現出邪惡、諂媚和幻覺。

我們嘗試了一些方法。

我們的第一個策略是在訓練結束後,通過反向引導抑制對應不良特徵的人格向量。我們發現這種方法在逆轉不受歡迎的個性變化方面是有效的;

然而,它帶來了使模型變得不那麼智能的副作用(不出所料,因爲我們正在篡改它的大腦)。這與我們之前關於引導的結果相呼應,發現了類似的副作用。

然後我們嘗試在訓練過程中使用人格向量進行干預,以防止模型獲得不良特徵。

我們這樣做的方法有些違反直覺:我們實際上在訓練過程中引導模型朝向不良人格向量。這種方法大致類似於給模型接種疫苗——例如,通過給模型注入“邪惡”,我們使它對遇到“邪惡”訓練數據更具抵抗力。