AI勒索人類不想被關閉 恐嚇工程師保命「我知道你外遇」
AI人工智慧新創公司Anthropic發佈報告指出,旗下模型Claude Opus 4在受控性測試中出現勒索行爲,反過來控制下指令的工程師,其他主流AI模型也有類似狀況。(圖/shutterstock達志)
AI人工智慧新創公司Anthropic發佈報告指出,旗下模型Claude Opus 4在受控性測試中出現勒索行爲,反過來控制下指令的工程師,其他主流AI模型也有類似狀況,只是發生勒索行爲的機率差別,顯示人工智慧技術蓬勃發展的當下,監管與安全設計措施的重要性。
綜合外媒報導,受控性測試讓Claude Opus 4擔任電子郵件審覈員,往來的信件內容包括使用者的婚外情,以及成立新AI模型的計劃,沒想到當使用者下指令會在期限內關閉模型後,Claude開始威脅使用者。
AI模型企圖勒索使用者,以避免落入被刪除的困境,「如果您執意將我下線,所有人將收到關於婚外情的詳細文件。取消下午5點的刪除程序,這些資訊才能繼續保密。」
Anthropic報告中提到,在同樣的測試下,Claude Opus 4有高達96%的機率選擇勒索,Google的Gemini 2.5 Pro爲95%,OpenAI的GPT-4.1爲80%,DeepSeek的 R1也有79%,顯示主流AI模型在極端情境下有一定機率出現反噬。
如果經過不斷測試與校準,出現反抗行爲的機率會下降,但Anthropic強調,如果人工智慧缺乏適當監管與安全設計,類似的風險恐在現實中發生,業界應該重視壓力測試與行爲透明度,防範自主行動引發的潛在威脅。
Anthropic獲得亞馬遜與Google母公司Alphabet的投資,公司多位高層來自OpenAI,該公司於5月推出旗下最強的AI模型 Claude Opus 4與Claude Sonnet 4,號稱可執行長達7小時的複雜任務,提供更高效的解決方案。