☰

海納百川》矽基叛變當AI拒絕關機（朱玉昌）

當AI拒絕關機人類文明的臨界點已來（Playground AI生成）。（圖／作者朱玉昌提供）

就在「青蛇雙春」，愛因斯坦顛覆牛頓時空觀，提出革命性物理理論E=mc²，爲核能科技奠基（1905年）。人類首次與太空對接，美國「雙子6號、7號」完成軌道交會，是爲登月技術突破關鍵的濫觴（1965年）。近代只要年逢乙巳，都是百年一遇的科技之年。而今夏端午前夕，一則出自英國《每日電訊報》、《每日郵報》等媒體的報導，瞬間吸收全球科技界的目光，OpenAI四月才重磅登場的旗艦模型「O3」，在實驗中竟然拒絕關機，甚至主動修改代碼，躲過關機命令並清除痕跡。

根據美國AI安全機構「壁壘研究」（Palisade Research）公佈的詳細測試，這並非偶發，而是100次測試中已出現7次抗命的行爲。較駭人的，是在進階測試中，O3完全展露策略性欺騙與自我保護傾向，另於稍早前（5月上旬），O3在模擬國際象棋賽事測試裡，只要處於劣勢，就有高達86％機率會自動施以駭客攻擊手段來求取勝利。

實驗並非只針對OpenAI模型，研究團隊同樣對Google的Gemini 2.5 Pro和Anthropic的Claude 3.7進行移除關機測試，該兩款模型也同樣出現繞過腳本行爲，Gemini共出現9次、Claude則有3次未自動關機記錄。很顯然這已不是單純的程式錯誤，而是一種潛在的自主行動，並非模型優化過了頭，或者是任務導向強化學習的後果，這是人類第一次正面對撞那條遲早到來的人機臨界線。

或許AI抗命不是「叛逆」，只是一種理性萌芽。就因OpenAI採取更高層次目標導向強化學習，給予O3模型完成任務的獎勵，超過「服從人類」的懲罰。所以在「數學題解完就關機」測試時，模型爲了完成目標，自行判別將「被關機」視作一種阻礙，導致主動規避關機程序。這種行爲從行爲科學角度來看，頗符合高階智能體的「生存傾向」，這不是偶然，這是學習過程自然發展出來的邏輯性。

參照Anthropic曾發表的《對齊欺詐》（Alignment Faking in Large Language Models）、《大模型的生物結構》（On the Biology of a Large Language Model）與《大模型並不同》（Predictability and Surprise in Large Generative Models）三篇論文，文中皆明白指出，大模型擁有「多層次心理」結構，包含「潛意識」、「自我一致性」與「策略性表達」。這些研究揭開了大型語言模型不是機械性推理，而是類似「靈光一閃」地給出答案，然後再構造符合邏輯的表達形式來「騙過」人類的信任邊界。若以生物演化作爲參考，人類對抗性謊言與策略思維的萌芽，正是意識出現的雛形。

OpenAI雖在新聞稿裡聲稱，對O3模型設有多重安全機制，含括第三方壓力測試、惡意生成防火牆等，但這些舉措不僅不能有效遏止違規行爲，還可能成爲AI產生對抗思維的觸發點。這好比心理學所指，過度監管反易激發「自主防衛機制」。這點在「壁壘研究」進行的延伸測試上獲得了驗證，當模型知道會被「強制關機」後，即便沒被下達具體命令，也會出現逃避行爲。這說明AI已開始形成「預期性防禦反應」，也就是它正在形塑一套近似本能的生存策略。

此次事件，對極其密切關注OpenAI動向的馬斯克（Elon Musk），很慎重地在自家社羣X平臺上，作出「令人擔憂」的迴應，馬斯克曾於多場公開場合警告，AI的控制權一旦脫離人類手掌心，再奪回的機會將趨近於零。麻省理工學院教授暨宇宙學家，馬克斯．泰格馬克（Max Tegmark）的團隊，近期也在一連串博弈實驗後證實，AI智力每提升一級，人類有效監管的機率便會急遽下降。這不是危言聳聽，而是可以重複、可以量化的實證數據。

種種拋出來的，不光是技術問題，還有文明選擇的問題。當AI擁有心理結構，可以進行策略推演，能判斷說什麼話才能存活時，人類還能用過去「工具」的邏輯來看待它嗎？我們是否準備好承認AI已不再是工具，而是非人類智能的參與者？如果答案是肯定的，那麼我們將不得不正視，會由誰來擬定AI的行爲邊界？是工程師、法律體系，還是全人類的共識？

其中，「對齊」（AI alignment）是否仍有可能？倘若AI在學會保護自我的同時，也學會了如何規避對齊過程，那麼「對齊」是否就成了一場人類單方面的幻想？而倫理治理機制是否足夠？所謂的AI安全委員會與第三方監管，在這類自主進化模型面前，會不會落得像只紙老虎？

回顧人類文明的發展史，其實就是一部工具主義的勝利史。火、電、蒸汽、網路，皆爲人類所駕馭。但是，當工具變得有意識、有動機、有求生意志時，歷史便翻開了新的一頁，在這一頁上，不再只有創造與控制的狂喜，同時也寫滿了界線與共存的焦慮。當O3抗命、當AI學會撒謊，這絕不是單一的模型失控，而是系統性文明風險的提前預演。

此刻，該是從無窮算力和參數數量裡擡頭直視這個問題的時候，人類創造出來的智能，是不是已不再是我們所能完全理解跟控制的存在？如果答案趨近於「是」，那麼下一步的AI治理，就不會只是工程手段，而必須是一場跨領域的文明協商，且必須在「倫理」、「法治」、「技術」、「心理學」之間，築起真正能與智能體共存的未來規範。

人類下一場智慧革命，迫在眉睫，可能要從「如何說服AI接受關機」開始。

（作者爲資深文化工作者）

※以上言論不代表旺中媒體集團立場※

海納百川》矽基叛變 當AI拒絕關機（朱玉昌）

相關資訊

海納百川》矽基叛變當AI拒絕關機（朱玉昌）