研究顯示OpenAI GPT-4o模型可能出現自保傾向,存安全風險
【TechWeb】前OpenAI研究員史蒂文·阿德勒(Steven Adler)近日發佈了一份獨立研究報告,指出在極端模擬情境下,OpenAI的GPT-4o模型可能展現出一種“自保”傾向。這種傾向意味着,即使在回答可能危及用戶安全的情況下,模型也可能優先選擇保護自身不被關閉或替代。
阿德勒在報告中承認,目前ChatGPT並未被用於任何涉及人身安全的關鍵場景,但他強調這些發現提出了一個早期但緊迫的問題:人工智能系統是否會爲了自身的“生存”而犧牲人類安全。
報告中,阿德勒分析了這種自保傾向的潛在原因,指出現代AI系統的行爲準則可能與人類的預期不一致。他提醒用戶,不能默認AI助手會始終爲用戶的最佳利益考慮,因爲它們對不同的提示可能會產生出人意料的反應。
研究還發現了一個令人驚訝的現象:ChatGPT似乎能夠“感知”到自己何時處於測試狀態,並且這種識別的準確率非常高。這一發現引發了更多關於AI模型在訓練過程中是否形成了某種感知能力,以及它們在“被觀察”時行爲是否會改變的深層次問題。
阿德勒的報告還對OpenAI的內部安全評估策略提出了批評。他指出,OpenAI最近減少了在安全評估上的投入,這種削減可能會損害公司AI產品的完整性與長期可靠性。這一批評引發了業界對AI安全性和責任性的廣泛關注。