海納百川》矽基叛變 當AI拒絕關機(朱玉昌)
當AI拒絕關機 人類文明的臨界點已來 (Playground AI生成)。(圖/作者朱玉昌提供)
就在「青蛇雙春」,愛因斯坦顛覆牛頓時空觀,提出革命性物理理論E=mc²,爲核能科技奠基(1905年)。人類首次與太空對接,美國「雙子6號、7號」完成軌道交會,是爲登月技術突破關鍵的濫觴(1965年)。近代只要年逢乙巳,都是百年一遇的科技之年。而今夏端午前夕,一則出自英國《每日電訊報》、《每日郵報》等媒體的報導,瞬間吸收全球科技界的目光,OpenAI四月才重磅登場的旗艦模型「O3」,在實驗中竟然拒絕關機,甚至主動修改代碼,躲過關機命令並清除痕跡。
根據美國AI安全機構「壁壘研究」(Palisade Research)公佈的詳細測試,這並非偶發,而是100次測試中已出現7次抗命的行爲。較駭人的,是在進階測試中,O3完全展露策略性欺騙與自我保護傾向,另於稍早前(5月上旬),O3在模擬國際象棋賽事測試裡,只要處於劣勢,就有高達86%機率會自動施以駭客攻擊手段來求取勝利。
實驗並非只針對OpenAI模型,研究團隊同樣對Google的Gemini 2.5 Pro和Anthropic的Claude 3.7進行移除關機測試,該兩款模型也同樣出現繞過腳本行爲,Gemini共出現9次、Claude則有3次未自動關機記錄。很顯然這已不是單純的程式錯誤,而是一種潛在的自主行動,並非模型優化過了頭,或者是任務導向強化學習的後果,這是人類第一次正面對撞那條遲早到來的人機臨界線。
或許AI抗命不是「叛逆」,只是一種理性萌芽。就因OpenAI採取更高層次目標導向強化學習,給予O3模型完成任務的獎勵,超過「服從人類」的懲罰。所以在「數學題解完就關機」測試時,模型爲了完成目標,自行判別將「被關機」視作一種阻礙,導致主動規避關機程序。這種行爲從行爲科學角度來看,頗符合高階智能體的「生存傾向」,這不是偶然,這是學習過程自然發展出來的邏輯性。
參照Anthropic曾發表的《對齊欺詐》(Alignment Faking in Large Language Models)、《大模型的生物結構》(On the Biology of a Large Language Model)與《大模型並不同》(Predictability and Surprise in Large Generative Models)三篇論文,文中皆明白指出,大模型擁有「多層次心理」結構,包含「潛意識」、「自我一致性」與「策略性表達」。這些研究揭開了大型語言模型不是機械性推理,而是類似「靈光一閃」地給出答案,然後再構造符合邏輯的表達形式來「騙過」人類的信任邊界。若以生物演化作爲參考,人類對抗性謊言與策略思維的萌芽,正是意識出現的雛形。
OpenAI雖在新聞稿裡聲稱,對O3模型設有多重安全機制,含括第三方壓力測試、惡意生成防火牆等,但這些舉措不僅不能有效遏止違規行爲,還可能成爲AI產生對抗思維的觸發點。這好比心理學所指,過度監管反易激發「自主防衛機制」。這點在「壁壘研究」進行的延伸測試上獲得了驗證,當模型知道會被「強制關機」後,即便沒被下達具體命令,也會出現逃避行爲。這說明AI已開始形成「預期性防禦反應」,也就是它正在形塑一套近似本能的生存策略。
此次事件,對極其密切關注OpenAI動向的馬斯克(Elon Musk),很慎重地在自家社羣X平臺上,作出「令人擔憂」的迴應,馬斯克曾於多場公開場合警告,AI的控制權一旦脫離人類手掌心,再奪回的機會將趨近於零。麻省理工學院教授暨宇宙學家,馬克斯.泰格馬克(Max Tegmark)的團隊,近期也在一連串博弈實驗後證實,AI智力每提升一級,人類有效監管的機率便會急遽下降。這不是危言聳聽,而是可以重複、可以量化的實證數據。
種種拋出來的,不光是技術問題,還有文明選擇的問題。當AI擁有心理結構,可以進行策略推演,能判斷說什麼話才能存活時,人類還能用過去「工具」的邏輯來看待它嗎?我們是否準備好承認AI已不再是工具,而是非人類智能的參與者?如果答案是肯定的,那麼我們將不得不正視,會由誰來擬定AI的行爲邊界?是工程師、法律體系,還是全人類的共識?
其中,「對齊」(AI alignment)是否仍有可能?倘若AI在學會保護自我的同時,也學會了如何規避對齊過程,那麼「對齊」是否就成了一場人類單方面的幻想?而倫理治理機制是否足夠?所謂的AI安全委員會與第三方監管,在這類自主進化模型面前,會不會落得像只紙老虎?
回顧人類文明的發展史,其實就是一部工具主義的勝利史。火、電、蒸汽、網路,皆爲人類所駕馭。但是,當工具變得有意識、有動機、有求生意志時,歷史便翻開了新的一頁,在這一頁上,不再只有創造與控制的狂喜,同時也寫滿了界線與共存的焦慮。當O3抗命、當AI學會撒謊,這絕不是單一的模型失控,而是系統性文明風險的提前預演。
此刻,該是從無窮算力和參數數量裡擡頭直視這個問題的時候,人類創造出來的智能,是不是已不再是我們所能完全理解跟控制的存在?如果答案趨近於「是」,那麼下一步的AI治理,就不會只是工程手段,而必須是一場跨領域的文明協商,且必須在「倫理」、「法治」、「技術」、「心理學」之間,築起真正能與智能體共存的未來規範。
人類下一場智慧革命,迫在眉睫,可能要從「如何說服AI接受關機」開始。
(作者爲資深文化工作者)
※以上言論不代表旺中媒體集團立場※