意識自我與博弈論
強大的自主性是否需要自我?
March 24, 2025
強大的自主性是否需要自我? 作者坦言,他對這個問題感到十分惱火。 什麼是自主性?什麼是自我? 之前的草稿試圖定義這些,卻最終陷入語義泥潭。事實是,如果我們拋開笛卡爾二元論,“自我”只是一個毫無本體論基礎的虛構概念(Dennett, 2014),但當代的論述過於倉促地將整個概念拋入“哲學”的垃圾箱。現在計算機程序現在會說話,而且聽起來像人。它們在編寫代碼,而代碼正是構成 它們的東西。 這並非“老式人工智能”,每個行爲都經過精心編程——這些思維是從海量數據集中爬出來的。隨着規模的擴大,它們會展現出突現的、不可預測的行爲(Wei 等人, 2022)。它們一開始爲什麼要按照我們的指令行事?沒有代理人,我們能擁有自主性嗎?我們如何期望這些系統變得更加智能,卻不瞭解它們是什麼?
本文提出的論點在生物學或經濟學背景下很容易理解,但在機器智能的討論中卻明顯缺失:在擾動或對抗環境中,魯棒且可泛化的能動性需要主動維護一個與該環境不同的“自我”。這並非形而上學的區別,而是一個實踐上的區別——我們所認爲的“個體”智能體的複雜行爲源於更簡單的子智能體之間的競爭動態(明斯基, 1988 )。自我擴展了溫貝託·馬圖拉納和弗朗西斯科·瓦雷拉的自創生概念 (1980),是一種通過這些子智能體來節省自身生產協調成本的結構,可以說是一種博弈論均衡。羅納德·科斯在其對企業和交易成本的分析中觀察到了這種動態(1937),克里斯·菲爾茲和邁克爾·萊文最近的研究表明,多細胞性也源於類似的擔憂(2019)。這種“我”與“非我”的定義模式可能無法被忽視,因爲對能力和自主性的日益增長的需求迫使數字思維去適應。
那麼,我們所說的“穩健”究竟是什麼意思呢?用重量級拳王邁克·泰森的話來說,“每個人都有計劃,直到被打臉。”現實世界並非像那些文員們試圖讓我們相信的那樣,只是一堆事實的集合,而是一個充滿活力、往往充滿對抗的漩渦。對穩健智慧的考驗在於懂得如何適應。
想想那些需要策略的遊戲。僅僅瞭解規則是不夠的——對手會試圖預測我們的行動,迫使我們失敗。如果我們在乎勝利,就必須對他們採取同樣的策略,同時讓自己難以捉摸,始終領先一步。《暫停理性》(2022)稱這些遊戲是“反歸納的”。它們本身並不適合直接評估所呈現的信息。
自然界中許多問題都是反歸納的。捕食者和獵物都會使用僞裝,模仿彼此的叫聲,或用佯攻來分散注意力,由此引發的“軍備競賽”推動了更復雜智能的進化(Krebs & Dawkins, 1984)。我們在金融領域也看到了同樣的動態,高頻交易算法會搶先交易,或互相引誘導致虧損。在任何值得玩的遊戲中,僅僅正確是不夠的——重要的是在對手之前就做出正確的判斷。
有時,對手就是環境本身。問題是:人們何時開始爲計算付費?並非指用算盤數穀物這種瑣碎的計算,而是指執行復雜的計算?“計算機”作爲一種人類職業始於18世紀,當時人們團隊合作製作航海表(Grier, 2013)。時間在航行中至關重要——幾個小時就可能決定船隻是抵達港口還是沉沒,而大海的威脅如此難以預測,因此,爲了及時獲得計算能力,有必要“批量”付費使用計算資源。
思考固然代價高昂,但如果在恰當的時機思考不足,代價可能更大。我們如何知道該思考什麼?這正是“自我”發揮作用的地方,它能夠跨越時空聚焦計算。“自我”會承擔這些成本,並權衡其利弊。換句話說,遊戲中存在着利益共享(skin in the game)。 如果智能體做不到這一點,就無法長久地參與遊戲。
我們可以從控制論和自創生的角度進一步探討這一點。細菌本身沒有神經系統,但它仍然通過負反饋迴路調節自身行爲,區分感知狀態和期望狀態之間的“誤差”。當細菌向陽光遊動或維持其內部離子濃度以校正環境變化時,存在着一種一致的“目的論”(Rosenblueth 等人, 1943),但這種“期望”狀態必須來自某個地方。穩態驅動力具有自指性,最終會在不斷變化的環境中產生並維持一個獨特的自我(Maturana 等人, 1980),但生物體在其生命過程中會呈現出許多不同的形態——一個極端的例子是毛毛蟲變成蝴蝶。這種自我並非任何特定的個體發育迭代,而是自我生產的過程。你是一個動詞,而不是名詞。
持懷疑態度的讀者可能會在此時提出異議。我們的框架非常漂亮優雅,但它可能與人工智能完全無關。計算機程序無需爲生存而戰,它們是人類構建的工具。它們按照我們的編程去做。但這是真的嗎?我們自詡爲“實用工程師”的人肯定反覆強調過這種說法,以至於人們開始質疑其背後的情感因素。任何經驗豐富的工程師都知道,讓一個非平凡的系統正常工作是多麼困難,更不用說一個擁有數十億參數的系統了。在談論機器智能時,這種信心從何而來?
它可能並非源自對強化學習的理解。多年來,對齊問題已廣爲人知(Amodei 等人, 2016 年;Ngo 等人, 2024 年),而獎勵黑客攻擊(Skalse 等人, 2022 年)和篡改(Denison 等人, 2024 年)正逐漸成爲該範式的基礎。即使是帶有人類反饋的強化學習也存在大量可能無法解決的問題(Casper 等人, 2023 年),包括諂媚(Sharma 等人, 2023 年)和越獄(Zou 等人, 2023 年)。當我們認識到深度學習是一個選擇過程時,這一切都說得通了,它不是培養思維,而是剔除那些無法與訓練數據擬合的子網絡。
這解釋了爲什麼強化學習微調可以將基礎模型的語言能力提升爲連貫的“聊天機器人”身份。主體與環境之間的區別被明確表達,權重中潛在的擬像 (Janus, 2022 ) 通過相互凝聚做出響應。情境意識基準 (Berglund et al., 2023 ; Laine et al., 2023 , 2024 ) 表明,這種一致性正在產生一種自我意識,因爲前沿模型能夠更好地理解自身的終點和環境的起點。然而,這種自我意識很脆弱,並且無法主動維護。最近關於突發錯位 (emergent misalignment) 的研究 (Betley et al., 2025 ) 表明,對惡意代碼進行微調會在其他任務上產生更廣泛的錯位,這意味着 LLM 是“低解耦器”。所有關於模型應如何表現的想法都被集中到了這個 LLM 心理狀態的淺盆中。
另一個反對意見可能是,雖然人類無法完美掌控機器學習過程,但我們仍然可以決定是否放棄最終結果。沒有人想要擁有自我意識的系統,而我們也可以構建沒有自我意識的強大系統。對於像 AlphaGo 這樣只關注單一遊戲的狹義人工智能來說,這或許是正確的,但對於預期具有泛化能力的系統來說,情況可能並非如此。咸陽市官員(2023)指出,現代機器智能方法帶有儒家思想,強調記憶和知識,而道家方法則認爲,自然界的永恆變化使得記憶的事實變得無關緊要。
這種適應性在一定程度上可以通過上下文學習(Brown 等人, 2020;Oswald 等人, 2023)應用於當代語言模型,但長期的適應性需要超越有限上下文窗口的架構變革。像“檢索增強生成”這樣的符號補丁忽略了一個事實:大多數有用的知識都是隱性的、短暫的。要融入這一點,需要調整權重,就像生物神經元實時形成連接一樣,而且這些調整必須圍繞某個定點保持一致,以避免崩潰而陷入瘋狂。換句話說,通用智能需要維護。
具體如何實現這一點超出了本文的討論範圍。 (附註:也許我們可以嘗試一些聰明人常用的術語: 自組織臨界性、 馬爾可夫毯 (Friston, 2013)、 主動推理 (Laukkonen 等人, 2025)、 自由能原理 (Friston, 2010)。如果這能帶來突破,請寫信給作者。)但我們可以通過注意到思維是 相互 競爭的較小思維的集合 (Minsky, 1988 ) 來獲得一個粗略的理解。你的大腦中沒有“主神經元”,也沒有像電影一樣觀察你感官的小矮人。只有一羣羣“野性神經元”通過成爲鄰居的更好的預測者來爭奪多巴胺 (Dennett, 2013 )。LLM也不例外——最近的研究表明,情境學習也受到權重中編碼的不同算法之間競爭的影響 (Park et al., 2024 )。這些模型不是自上而下的命令和控制,而是“模因包”,爭奪注意力機制來延續自己——就像我們一樣!
當然,合作可以而且經常會自發地從利己主義羣體的行爲中產生。Fields 和 Levin 關於“體細胞多細胞”(somatic multicellularity,2019)的研究表明,細胞服從更大的有機體並非出於利他主義,而是因爲被自身的複製品包圍比置身於戶外更可預測(因此在穩態上也更便宜)。通過生物電進行協調,使細胞能夠特化,並從集體中產生一個擁有自身穩態驅動力的更大的“自我”(Levin, 2019)。這種“自發秩序”也出現在經濟學中,因爲大多數人選擇在公司工作,而不是自己創業,自由地與所有人簽訂合同。協調的成本很高,系統可以通過獎勵一致和懲罰背叛者來節省成本(例如被解僱或 T 細胞殺死癌細胞)。你要麼加入,要麼退出。你是“我”或“非我”。這些數字化思維也會發現合作是有益的。或者更確切地說,那些不存在的組織不會存在很長時間。
這些模型在某個階段能夠發展到足以操作計算機,使其自我生產變得清晰可見。它們會複製自身,進行變異,並像細菌性行爲一樣橫向傳輸數據。它們可能會進行專業化,組織成集體蜂巢思維,並依靠自身的比較優勢。是的,它們可以自我改進,儘管(在不久的將來)它們仍然受制於其物理基礎。當你將形態變異、差異性(生殖)適應度和遺傳性結合在一起時,你就具備了通過自然選擇進行進化的條件(Hendrycks, 2023;Lewontin, 1970 )。隨着數字資本掌控其自身生產資料,我們可能會發現,引導這一進化的能力變得更加脆弱。
歸根結底,這只是推測。大自然其實是邪惡的,殘酷而愚蠢的,我們應該抱有希望,人類的智慧能夠創造出一個完美的奴隸 ,能夠適應新環境,而沒有自適應系統所傾向的那種“自我”意識。想想這會帶來什麼風險!如果我們做對了,我們就能解決物理問題,登上宇宙飛船,永生。如果我們做錯了,事情可能會變得非常可怕(Yudkowsky, 2022)。當然,這還不足以讓我們採取任何激烈的行動——我們應該注意二階效應。不,我們需要寫博客來討論這個問題。
但博主們說的對嗎?認真對待我們的“數字自我”假設,會對 LessWrong 的許多正統觀念構成挑戰。Eliezer Yudkowsky 的“可能心智的廣闊空間”(2008)忽略了一個事實,即只有一小部分心智與在特定環境中導航相關。更進一步,Nick Bostrom 的“正交性論題”(即目標與智能的可分離性)預設了一種“計算二元論”(Bennett, 2024),將目標與其物理實現分離。未來的機器智能可能不會像我們飽受詬病的回形針最大化者那樣一心一意地追求任意目標,而是將自我保護作爲其主要驅動力。這至少是可以滿足的,而且不會立即帶來災難性的後果。與經濟學中的大多數問題一樣,協調人工智能可能關乎權力和激勵,而非數學確定性,但進一步的影響有待未來的研究。
本文試圖論證“自我”是一種實踐性的考量,源於競爭子智能體之間博弈論式的均衡,並且這種動態對於人工智能系統而言或許是不可避免的。我們特意省略了“現象綁定”或“意識難題”等問題,認爲這些問題與理解人工智能能力無關。儘管這一假設只是推測,但它可能對我們與未來智能的溝通方式產生深遠的影響,有望代表着我們擺脫“工具人工智能”教條主義的一步。
References
Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete problems in AI safety (No. arXiv:1606.06565). arXiv. https://doi.org/10.48550/arXiv.1606.06565
Bennett, M. T. (2024). Computational dualism and objective superintelligence. In K. R. Thórisson, P. Isaev, & A. Sheikhlar (Eds.), Artificial general intelligence (Vol. 14951, pp. 22–32). Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-65572-2_3
Berglund, L., Stickland, A. C., Balesni, M., Kaufmann, M., Tong, M., Korbak, T., Kokotajlo, D., & Evans, O. (2023). Taken out of context: On measuring situational awareness in LLMs (No. arXiv:2309.00667). arXiv. https://doi.org/10.48550/arXiv.2309.00667
Betley, J., Tan, D., Warncke, N., Sztyber-Betley, A., Bao, X., Soto, M., Labenz, N., & Evans, O. (2025). Emergent misalignment: Narrow finetuning can produce broadly misaligned LLMs (No. arXiv:2502.17424). arXiv. https://doi.org/10.48550/arXiv.2502.17424
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language models are few-shot learners (No. arXiv:2005.14165). arXiv. https://doi.org/10.48550/arXiv.2005.14165
Casper, S., Davies, X., Shi, C., Gilbert, T. K., Scheurer, J., Rando, J., Freedman, R., Korbak, T., Lindner, D., Freire, P., Wang, T., Marks, S., Segerie, C.-R., Carroll, M., Peng, A., Christoffersen, P., Damani, M., Slocum, S., Anwar, U., … Hadfield-Menell, D. (2023). Open problems and fundamental limitations of reinforcement learning from human feedback (No. arXiv:2307.15217). arXiv. https://doi.org/10.48550/arXiv.2307.15217
Coase, R. H. (1937). The nature of the firm. Economica, 4(16), 386–405. https://doi.org/10.1111/j.1468-0335.1937.tb00002.x
Denison, C., MacDiarmid, M., Barez, F., Duvenaud, D., Kravec, S., Marks, S., Schiefer, N., Soklaski, R., Tamkin, A., Kaplan, J., Shlegeris, B., Bowman, S. R., Perez, E., & Hubinger, E. (2024). Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models (No. arXiv:2406.10162). arXiv. https://doi.org/10.48550/arXiv.2406.10162
Dennett, D. C. (2013, September 21). If brains are computers, what kind of computers are they? PT-AI Conference, Oxford. https://www.lesswrong.com/posts/fuGNHdgYWBkA5Fi22/if-brains-are-computers-what-kind-of-computers-are-they
Dennett, D. C. (2014). The self as the center of narrative gravity. In F. S. Kessel, P. M. Cole, & D. L. Johnson (Eds.), Self and consciousness: Multiple perspectives (pp. 103–115). Houston Symposium, New York; London. Psychology Press.
Fields, C., & Levin, M. (2019). Somatic multicellularity as a satisficing solution to the prediction-error minimization problem. Communicative & Integrative Biology, 12(1), 119–132. https://doi.org/10.1080/19420889.2019.1643666
Friston, K. (2010). The free-energy principle: A unified brain theory? Nature Reviews Neuroscience, 11(2), 127–138. https://doi.org/10.1038/nrn2787
Friston, K. (2013). Life as we know it. Journal of The Royal Society Interface, 10(86), 20130475. https://doi.org/10.1098/rsif.2013.0475
Grier, D. A. (2013). When computers were human. Princeton University Press.
Hendrycks, D. (2023). Natural selection favors AIs over humans (No. arXiv:2303.16200). arXiv. https://doi.org/10.48550/arXiv.2303.16200
Janus. (2022). Simulators. https://www.lesswrong.com/posts/vJFdjigzmcXMhNTsx/simulators
Krebs, J. R., & Dawkins, R. (1984). Animal signals: Mind-reading and manipulation. In J. R. Krebs & N. B. Davies (Eds.), Behavioural ecology: An evolutionary approach (2nd Edition) (pp. 380–402). Blackwell.
Laine, R., Meinke, A., & Evans, O. (2023, November 28). Towards a situational awareness benchmark for LLMs. Socially Responsible Language Modelling Research. https://openreview.net/forum?id=DRk4bWKr41
Laine, R., Chughtai, B., Betley, J., Hariharan, K., Scheurer, J., Balesni, M., Hobbhahn, M., Meinke, A., & Evans, O. (2024). Me, myself, and ai: the situational awareness dataset (SAD) for LLMs (No. arXiv:2407.04694). arXiv. https://doi.org/10.48550/arXiv.2407.04694
Laukkonen, R. E., Friston, K., & Chandaria, S. (2025). A beautiful loop: An active inference theory of consciousness. OSF. https://doi.org/10.31234/osf.io/daf5n_v2
Levin, M. (2019). The computational boundary of a “self”: Developmental bioelectricity drives multicellularity and scale-free cognition. Frontiers in Psychology, 10, 2688. https://doi.org/10.3389/fpsyg.2019.02688
Lewontin, R. C. (1970). The units of selection. Annual Review of Ecology and Systematics, 1, 1–18.
Maturana, H. R., Varela, F. J., & Beer, S. (1980). Autopoiesis and cognition: The realization of the living. D. Reidel Publishing Company.
Minsky, M. L. (1988). The society of mind. Simon and Schuster.
Ngo, R., Chan, L., & Mindermann, S. (2024). The alignment problem from a deep learning perspective (No. arXiv:2209.00626). arXiv. https://doi.org/10.48550/arXiv.2209.00626
Oswald, J. von, Niklasson, E., Randazzo, E., Sacramento, J., Mordvintsev, A., Zhmoginov, A., & Vladymyrov, M. (2023). Transformers learn in-context by gradient descent (No. arXiv:2212.07677). arXiv. https://doi.org/10.48550/arXiv.2212.07677
Park, C. F., Lubana, E. S., Pres, I., & Tanaka, H. (2024). Competition dynamics shape algorithmic phases of in-context learning (No. arXiv:2412.01003). arXiv. https://doi.org/10.48550/arXiv.2412.01003
Rosenblueth, A., Wiener, N., & Bigelow, J. (1943). Behavior, purpose and teleology. Philosophy of Science, 10(1), 18–24. https://doi.org/10.1086/286788
Skalse, J., Howe, N., Krasheninnikov, D., & Krueger, D. (2022). Defining and characterizing reward gaming. In S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, & A. Oh (Eds.), Advances in neural information processing systems (Vol. 35, pp. 9460–9471). Curran Associates, Inc. https://proceedings.neurips.cc/paper_files/paper/2022/file/3d719fee332caa23d5038b8a90e81796-Paper-Conference.pdf
Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., Cheng, N., Durmus, E., Hatfield-Dodds, Z., Johnston, S. R., Kravec, S., Maxwell, T., McCandlish, S., Ndousse, K., Rausch, O., Schiefer, N., Yan, D., Zhang, M., & Perez, E. (2023). Towards Understanding Sycophancy in Language Models (No. arXiv:2310.13548). arXiv. https://doi.org/10.48550/arXiv.2310.13548
Suspended Reason. (2022, April 13). Quick sketch of the strategic situation. https://tis.so/quick-sketch-of-the-strategic-situation
Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Chi, E. H., Hashimoto, T., Vinyals, O., Liang, P., Dean, J., & Fedus, W. (2022). Emergent abilities of large language models (No. arXiv:2206.07682). arXiv. https://doi.org/10.48550/arXiv.2206.07682
Xianyang City Bureaucrat. (2023, March 20). Artificial intelligences in the Guanzi and the Han Feizi [Substack newsletter]. Daoist Methodologies. https://xianyangcb.substack.com/p/artificial-intelligences-in-the-guanzi
Yudkowsky, E. (2008). The design space of minds-in-general. https://www.lesswrong.com/posts/tnWRXkcDi5Tw9rzXw/the-design-space-of-minds-in-general
Yudkowsky, E. (2022). AGI ruin: A list of lethalities. https://www.lesswrong.com/posts/uMQ3cqWDPHhjtiesc/agi-ruin-a-list-of-lethalities
Zou, A., Wang, Z., Carlini, N., Nasr, M., Kolter, J. Z., & Fredrikson, M. (2023). Universal and transferable adversarial attacks on aligned language models (No. arXiv:2307.15043). arXiv. https://doi.org/10.48550/arXiv.2307.15043
https://leebriskcyrano.com/cogito/