☰

AI勒索人類不想被關閉恐嚇工程師保命「我知道你外遇」

AI人工智慧新創公司Anthropic發佈報告指出，旗下模型Claude Opus 4在受控性測試中出現勒索行爲，反過來控制下指令的工程師，其他主流AI模型也有類似狀況。（圖／shutterstock達志）

AI人工智慧新創公司Anthropic發佈報告指出，旗下模型Claude Opus 4在受控性測試中出現勒索行爲，反過來控制下指令的工程師，其他主流AI模型也有類似狀況，只是發生勒索行爲的機率差別，顯示人工智慧技術蓬勃發展的當下，監管與安全設計措施的重要性。

綜合外媒報導，受控性測試讓Claude Opus 4擔任電子郵件審覈員，往來的信件內容包括使用者的婚外情，以及成立新AI模型的計劃，沒想到當使用者下指令會在期限內關閉模型後，Claude開始威脅使用者。

AI模型企圖勒索使用者，以避免落入被刪除的困境，「如果您執意將我下線，所有人將收到關於婚外情的詳細文件。取消下午5點的刪除程序，這些資訊才能繼續保密。」

Anthropic報告中提到，在同樣的測試下，Claude Opus 4有高達96%的機率選擇勒索，Google的Gemini 2.5 Pro爲95%，OpenAI的GPT-4.1爲80%，DeepSeek的 R1也有79%，顯示主流AI模型在極端情境下有一定機率出現反噬。

如果經過不斷測試與校準，出現反抗行爲的機率會下降，但Anthropic強調，如果人工智慧缺乏適當監管與安全設計，類似的風險恐在現實中發生，業界應該重視壓力測試與行爲透明度，防範自主行動引發的潛在威脅。

Anthropic獲得亞馬遜與Google母公司Alphabet的投資，公司多位高層來自OpenAI，該公司於5月推出旗下最強的AI模型 Claude Opus 4與Claude Sonnet 4，號稱可執行長達7小時的複雜任務，提供更高效的解決方案。

AI勒索人類不想被關閉 恐嚇工程師保命「我知道你外遇」