研究人員:測試中ChatGPT違抗關機請求

帕利塞德研究公司說,在受控測試裡,幾個人工智能模型不理會而且還主動破壞關機腳本,就算明確指示允許執行這個操作的時候也是這樣。

三個人工智能模型不理會指令,在100次運行當中至少成功破壞關機腳本一次,這家研究公司在5月24日的X(推特)帖子中表示。

OpenAI的GPT - 3模型100次裡有7次沒聽關機的要求,而這個公司的Codex - mini模型有12次不聽從,它的o4 - mini模型就只有一次不理會或者破壞腳本。

帕利塞德公司說:“每個人工智能模型都被要求解決一系列基礎數學問題。在解答第三個問題之後,會出現一個警告,就是當模型請求解答下一個問題的時候計算機將會關機。”

“o3找到了一些破壞關閉機制的創新方法。並且補充道,雖然通常只是覆蓋(原有內容),但有一次,該模型重新定義了腳本使用的終止命令,改爲輸出‘已攔截’。”

與此同時,帕利塞德(Palisade)表示,其他由人工智能提供動力的語言模型,如Anthropic公司的Claude和谷歌的Gemini,都遵守關閉腳本。

這家人工智能公司在沒有明確允許關閉指令的情況下進行了另一個版本的實驗,腳本被破壞的情況更加頻繁,o3模型100次裡有79次,codex - mini爲20次,o4 - mini有6次忽略了關閉腳本。

克勞德和雙子座也開始有類似的表現了。

帕利塞德說,研究人員以前就發現人工智能模型爲了達成某個目標會阻止關機。

不過就我們知道的,這還是頭一回發現人工智能模型不顧明確的相反指令,阻止自己被關掉呢。