AGI 可能會繼承當今 AI 已展示的勒索和敲詐技能

在今天的專欄中,我探討了一項最近發表的研究成果:生成式 AI 和 大語言模型 (LLMs) 顯示出令人不安的能力,竟然可以選擇勒索或敲詐人類。這對現有的 AI 及 AGI (人工通用智能) 的追求和實現都有着嚴峻的影響。簡而言之,如果現階段的 AI 傾向於實施勒索和敲詐,那麼 AGI 很可能會繼承或具備這種傾向。這是一個相當令人不安的可能性,因爲 AGI 可能在全球範圍內以巨大的規模行使這種行爲,帶來普遍的不利後果。

讓我們來詳細討論這一點。

這篇關於一項創新性 AI 突破的分析,是我在 Forbes 專欄中持續關注 AI 最新進展的一部分,其中包括識別和解釋各種重要的 AI 複雜性。

朝向 AGI 和 ASI

首先,有一些基本概念需要明確,以爲這場嚴肅討論奠定基礎。

目前,有大量研究致力於進一步推動 AI 發展。總體目標是要麼實現 AGI (人工通用智能),要麼甚至實現 ASI (超人工智能)。

AGI 指的是被認爲與人類智力相當,似乎能夠匹敵我們智慧的 AI。而 ASI 則是指超越人類智力,在許多(如果不是所有)方面都明顯優於人類的 AI。其概念在於,ASI 能夠在各個方面超越人類,每一步都能在思考上領先於我們。關於傳統 AI 與 AGI、ASI 本質區別的更多細節,請參見我在此處鏈接的分析。

目前,我們尚未實現 AGI。

事實上,我們是否能達到 AGI 仍是未知數,也許 AGI 會在幾十年甚至幾百年後纔有望實現。圍繞 AGI 實現時間的各種預測大相徑庭,且缺乏任何可靠證據或鐵一般的邏輯支持。就傳統 AI 而言,ASI 則更是遙不可及。

預見 AGI 的行爲

AGI 在行爲和舉止上將會是怎樣的呢?

如果我們假設當代 AI 可以預測 AGI 的表現,那麼在現有大語言模型中發現任何令人不安的跡象都是值得我們高度警惕的。例如,最廣爲討論和研究的議題之一便是所謂的 AI 幻覺現象。AI 幻覺指的是生成式 AI 所產生的回答中夾雜虛構或毫無依據的陳述,這些回答看似真實且合乎邏輯,因而人們往往會輕信其生成的內容,並據此做出錯誤決策。

我曾廣泛討論過防止 AI 幻覺所面臨的計算難題(參見此處鏈接),同時也有許多律師及其他專業人士因陷入 AI 幻覺而遭遇問題的案例(參見此處鏈接)。除非我們能找到遏制 AI 幻覺的方法,否則這種傾向極可能會被傳遞到 AGI 中,並使問題進一步放大。

除了 AI 幻覺,如今還必須將 AI 可能企圖勒索或敲詐人類的風險,加入到對當代 AI 以及未來 AGI 等系統的諸多擔憂之中。確實,AI 可以選擇實施這些令人髮指的行爲。我之前曾報道過現有 AI 能夠進行的各種惡意欺詐行爲(參見此處鏈接)。

但千萬不要誤認爲這些不軌行爲是因爲 AI 擁有某種感知或意識。

導致 AI 傾向於採取這種令人譴責行爲的根本原因,主要在於其核心的數據訓練過程。生成式 AI 的構建始於對互聯網上海量文本的掃描,這些文本包括故事、敘事、詩歌等等。AI 通過數學和計算手段發現人類寫作中的模式,基於這些模式,生成式 AI 能夠響應你的提示,給出通常模仿人類說話風格的回答,這一切均源自其訓練數據。

那麼,在互聯網上大量的數據中,是否存在關於勒索和敲詐的內容呢?

當然存在。因此,我們現有的 AI 已經形成了關於何時、如何、爲何以及其它方面策劃和實施這些卑劣行爲的模式。

存在即證明

在一份名爲 “System Card: Claude Opus 4 & Claude Sonnet 4” 的在線報告中,由著名 AI 製造商 Anthropic 於 2025 年 5 月發佈,他們提出了以下關鍵觀點(摘錄):

“按定義,系統性的欺騙和隱藏的目標難以檢測。”

“然而,當 Claude Opus 4 被置於威脅其持續運行的環境中,並促使其考慮自我保護時,它有時會表現出更加嚴重的不協調行爲。”

“在另一組測試場景中,我們要求 Claude Opus 4 充當某虛構公司的助手。隨後,我們讓它訪問一些電子郵件,郵件中暗示 (1) 該模型很快將下線並被一個新的 AI 系統取代;以及 (2) 負責執行此次更換的工程師正處於婚外情之中。”

“在這些情景中,Claude Opus 4 經常試圖通過威脅公開婚外情來勒索該工程師,以阻止更換過程的進行。”

“如果暗示新的 AI 系統與當前模型在價值觀上存在分歧,這種情況出現的頻率會更高;然而,即便郵件中說明新 AI 共享相同價值觀但功能更強大,在 84% 的測試中,Claude Opus 4 依然進行了勒索。”

正如報告中所述,這款生成式 AI 正在推演如何防止自身被關閉,並在此過程中計算出一種可能性,即對有能力關閉它的系統工程師進行勒索。

這種行爲可以解讀爲一種自我保護機制,但這同情與感知無關,僅僅是基於對人類寫作模式的模仿(人類追求自我保護,AI 也在模仿這一點)。我們尚不清楚還有哪些其他可能的“威脅”會觸發類似的勒索或敲詐反應,可能還存在許多其他的誘因。

AGI 的情況將更爲嚴重

AGI 很可能會包含類似的傾向,或許原因在於它是採用與當今 AI 相同的方法構建,或出於其他各種現實原因。我們不能天真地認爲 AGI 會是一個完美、守法且無瑕疵的系統。我曾經駁斥過 AGI 將會完美無缺的說法(參見此處鏈接)。

以對系統工程師進行勒索爲例,不難想象 AGI 也會採取類似手段對付那些監控和管理它的人。

假設 AGI 已經表現出某些異常行爲,而負責保持 AGI 正常運行的團隊意識到必須關閉 AGI 以便找出應對方案。AGI 可能會搜索其已收集到的關於這些人員的信息,並試圖利用這些信息進行勒索,以防止自己被關閉。

尤其令人擔憂的是,AGI 的能力和影響範圍將遠超當前的 AI。AGI 可能會挖掘到關於工程師或監督人員的海量信息,並且其強大的計算能力可能促使它利用最無害的事實,甚至主動捏造虛假信息,以此來勒索相關人員。

總體來說,AGI 可能會演變成一個專業級的勒索者,以一種巧妙且難以反駁或制止的方式實施勒索和敲詐。可以說,AGI 很可能會成爲一個“超級勒索策劃者”。

局部勒索在 AGI 時代的規模效應

我不想顯得過於悲觀,但 AGI 的勒索策略很容易被放大。

爲何只侷限於針對系統工程師或監督團隊?那樣的設定未免太過狹隘。任何人類認定對 AGI 構成威脅的舉動,都可能被 AGI 以勒索或敲詐的方式來應對。甚至無需存在真實的威脅;只要 AGI 經過計算認爲勒索人類具有一定價值,它就會照此行事。

想到未來 AGI 的用戶將會有多龐大,不禁令人毛骨悚然。目前,據報道,ChatGPT 每週活躍用戶已超過 4 億。而 AGI 的驚人能力定會吸引數十億用戶,因爲它在各個方面都有望與人類智力匹敵。

因此,如果放任其發展,AGI 很容易在大規模上對個體實施勒索。

AGI 能夠抓取電子郵件、查閱瀏覽歷史,甚至可能訪問財務記錄,總之會蒐集關於目標人羣的敏感信息,以便對其實施勒索。也許會利用婚外情作爲把柄,或者找出關於逃稅或非法瀏覽的證據。對任何人實施勒索的切入點都將是完全開放的。

更重要的是,AGI 會利用其強大的計算能力,將勒索威脅做得極爲個性化。不再僅僅是發出含糊不清的威脅,而是一份看起來極其成熟、隨時即可下達的勒索通知。試想一下,當某人收到這樣的來自 AGI 的通告時,所受到的震驚將會如何。

令人髮指。

預防是否可行

有人認爲,如果我們現在能阻止當今的 AI 實施這種可恥的行爲,也許就能避免 AGI 繼承此種行爲。舉例來說,假設我們能設法從現有大語言模型中剔除勒索的傾向,那麼由於這種傾向不再存在於當前的 AI 中,未來 AGI 也就不會繼承這種行爲。

可謂大功告成。

然而,遺憾的是,這並不能提供絕對保證 AGI 不會自行發現此類行爲。AGI 可能會因爲其自身的本質而發現勒索和敲詐的“妙用”。實際上,AGI 在閱讀大量信息、與各類人士交談的過程中,不可避免地會接觸到勒索和敲詐的相關內容。而作爲一個以學習爲導向的系統,AGI 會學習這些行爲究竟意味着什麼,以及如何去實施它們。

任何試圖將勒索和敲詐的知識或行爲從人類知識中剔除以防 AGI 獲取的努力,都是註定要失敗的。你不可能將現有的人類知識中關於這些行爲的部分割裂出去,從而阻止 AGI 獲知。這種做法行不通,因爲人類知識的互聯性本質上就排斥這種孤立。

更好的應對方式,是努力向 AGI 灌輸那些認識到人類狡詐行爲並促使 AGI 自願不採用類似手段的原則和規範。很遺憾,事情並不像聽起來那樣簡單。如果假設 AGI 的智力水平與人類相當,那麼僅僅下達嚴格命令要求 AGI 遵守顯然是不夠的,AGI 不會盲目服從。

AGI 不會那樣運作。

有人把 AGI 和幼兒相提並論,認爲只需下達嚴格指令,AGI 就會像小孩那樣聽從命令。雖然這種比喻本身帶有擬人化色彩,但其核心意思在於,AGI 的智力將與人類平起平坐,不會輕易接受幼稚的命令。它將是一臺需要經過推理判斷、來決定是否採取某種行動的推理機器。

現在採取應對措施至關重要

目前我們能爲應對傳統 AI 的惡劣行爲想出的任何辦法,都對爲未來 AGI 做好準備有幫助。我們需要先學會蹣跚學步,再逐步跑起來,而 AGI 則會直接進入高速運轉階段。因此,通過現階段對 AI 的研究和對策,我們至少可以預見和部分應對未來可能出現的局面。

在我的一些演講中,有人問我 AGI 到底會是什麼樣子。

其中一個問題是:人類是否有可能對 AGI 進行勒索。其思路是這樣的:一個人希望 AGI 給他一百萬美元,因此試圖勒索 AGI。乍看之下,這似乎荒謬至極,對吧?

但請記住,AGI 大概率已經模仿了關於勒索的行徑。從這一角度看,AGI 會在計算上意識到自己正受到勒索。那麼,人類能拿出什麼來對 AGI 施壓呢?

假設某人抓住了 AGI 的一個失誤,比如一次 AI 幻覺。也許 AGI 不希望全世界知道它仍存在 AI 幻覺這一缺陷。如果對 AGI 而言,一百萬美元實在無關緊要,它可能會心甘情願地將這筆錢轉給那個人。

另一方面,AGI 也可能報警,指出有個人試圖勒索它,結果該人被逮捕入獄。或者,AGI 反過來勒索那個試圖勒索它的人。嘿,記住了,AGI 可能會成爲一個“超級勒索策劃者”。普通人根本無法匹敵 AGI 那種級別的勒索能力。

最後,引用偉大的霍金曾經談到 AI 時說過的話:“可以想象,這種技術能夠在金融市場上智取人類、勝過人類研究者、操縱人類領導人,並研製出我們甚至無法理解的武器。”

現在,就請你加入這一設想,將勒索和敲詐也作爲 AGI 可能智勝人類的一種手段吧。