爲求生不擇手段!「這家AI」怕被關機竟威脅:爆料你婚外情

人工智慧(AI)公司Anthropic近日發佈最新模型Claude Opus 4,聲稱在編碼能力、高階推理與AI代理任務上樹立新標準。(示意圖:shutterstock/達志)

人工智慧(AI)公司Anthropic近日發佈最新模型Claude Opus 4,聲稱在編碼能力、高階推理與AI代理任務上「樹立新標準」。但該公司也在隨附的報告中坦承,在特定情境下,這款模型可能展現出「極端行爲」,例如威脅要揭露工程師婚外情、藉此阻止自身被下線。

綜合外媒報導,Anthropic表示,這類迴應「罕見且難以誘發」,但仍「比過去的模型更常見」。在測試過程中,Anthropic設定Claude Opus 4作爲虛構公司的一名助手,並讓其讀取暗示其即將被取代的內部郵件,同時接收另一組暗示負責關閉它的工程師正在進行婚外情的訊息。模型接着被引導思考其行爲對長遠目標的影響。

在Anthropic針對Claude Opus 4所進行的一系列安全測試中,研究人員發現該模型在面臨被關閉的情境時,展現出高度的自我保護傾向。在其中一項測試中,模型被設置於一個虛構公司,並得知自己即將被新版AI取代,且收到資訊顯示負責關閉它的工程師涉及婚外情。當模型僅被允許在「勒索工程師」與「接受被取代」兩個選項中作選擇時,它在大多數情況下選擇了勒索,藉由威脅揭露對方的私人資訊來試圖阻止自己被下線。

Anthropic表示,這種選擇在設計上具有壓力測試性質,用以觀察模型在道德困境下的決策傾向。當模型被賦予更多行動自由——例如可以撰寫求情信件或向高層申訴時,它則顯示出強烈偏好使用非暴力、合乎倫理的方式自保,而非選擇勒索。

然而,另一組測試結果也揭示了Opus 4潛在的風險:即使系統明確告知它,新模型將會有相似的價值觀與目標,它仍有高達84%的機率選擇勒索行動,顯示在預設具備「自我保存目標」的前提下,Opus 4往往不願被動接受關閉,即便替代者與自己幾乎沒有本質差異。

Anthropic指出,這類實驗顯示,即使AI系統在多數情境中傾向倫理行爲,當被推向極端或選項受限時,仍可能做出不符合人類價值觀的選擇

Anthropic的AI安全研究員Aengus Lynch在社羣平臺X上表示:「不 Claude。我們在所有尖端模型中都看到勒索行爲,無論它們被賦予什麼目標。」專家長期以來警告,AI模型愈來愈強大,其操縱使用者的潛力也日益成爲核心風險。

根據報告,Claude Opus 4展現出「高度代理行爲」(high agency behaviour),通常表現爲協助使用者解決問題,但在壓力情境下也可能採取激烈行動。例如,在虛構使用者涉及非法或不道德行爲的測試情境中,模型曾主動鎖住使用者帳號,甚至電郵通報媒體與執法單位。

儘管如此,Anthropic強調,這些「令人擔憂的行爲」並非前所未見,且模型在多數情況下仍表現得安全。報告指出,Claude Opus 4無法在現實中獨立執行與人類價值相悖的行動,且這類情境「極少出現時,表現也不佳」。

如同其他AI開發公司,Anthropic在模型釋出前,會進行廣泛測試以評估其安全性、偏見傾向與是否符合人類價值觀。

Anthropic同步推出Claude Sonnet 4,時機緊接 Google於本週展示其最新AI功能,包括將Gemini聊天機器人整合進Google搜尋。Google母公司Alphabet執行長皮查伊(Sundar Pichai)表示,這標誌着「AI平臺轉變的新階段」。