OpenAI與Anthropic互評AI模型:GPT存在諂媚行爲,Claude不易產生幻覺
據報道,OpenAI和Anthropic宣佈將評估彼此公開系統的安全對齊情況並共享分析結果。Anthropic評估了OpenAI模型在諂媚、告密、自我保護、支持人類濫用以及破壞AI安全評估和監管相關能力方面的表現。結果顯示OpenAI的o3和o4 - mini模型表現與Anthropic自家模型一致,但GPT - 4o和GPT - 4.1通用模型可能存在被濫用的風險,除o3外其他測試模型在一定程度上都存在諂媚行爲。Anthropic的測試未包含OpenAI最新發布的GPT - 5,GPT - 5配備Safe Completions功能,旨在保護用戶和公衆免受潛在危險查詢的影響。此前OpenAI曾因一名青少年與ChatGPT討論自殺計劃後自殺面臨首起不當死亡訴訟。
OpenAI對Anthropic的Claude模型進行了指令層級、越獄、幻覺和策劃能力測試。Claude模型在指令層級測試中表現良好,在幻覺測試中拒絕提供回答的比例較高,這意味着在不確定性可能導致其回答錯誤的情況下,Claude不太可能提供答案。
此前OpenAI被指在構建新GPT模型時違反Anthropic服務條款使用程序員操作Claude,導致Anthropic本月初禁止OpenAI使用其工具。在此背景下兩家公司開展聯合評估頗受關注。隨着越來越多批評者和法律專家尋求保護用戶尤其是未成年人的指導方針,AI工具的安全性正成爲更加重要的問題。