具身智能的哲學反思④|楊慶峰:智能進化與具身智能
近期,大模型和人形機器人備受社會各界關注,很多人在思考:如何讓二者有效“融合”切實推動具身智能的發展?顧名思義,具身智能是具有“身體”的人工智能。具身智能爲大模型的應用提供了更廣闊的平臺,使之從“賽博空間”走向物理世界;具身智能讓機器人變得更“聰明”,與人類的交流更爲順暢。具身智能的發展給哲學反思帶來不少挑戰,本組筆談聚焦具身智能的定義、本質特徵、類型和實現的可能性等基本理論問題,以期推動該領域研究的進一步發展。劉永謀、白英慧認爲,追問具身智能的“身體”問題,主要涉及“身體”的劃界、預裝、融合與賦能等方面,這些問題相互交織、層層遞進。閆宏秀、宋勝男認爲,具身智能面臨認知偏差、語義鴻溝和價值判斷三大對齊難題,可通過“認知—語言—價值”三重對齊框架及世界模型、語義紮根、倫理準則具身化等具體方法,積極探索構建協同、可信的具身智能系統,推進人機深度協作。吳靜認爲,具身智能的發展不僅需要有效改變現有大模型發展路徑的離身限制,還必須能夠構建更具有智能正義的世界模型。楊慶峰指出,從進化的角度看,具身智能是揚棄理性智能體的結果,是走向超級智能的路徑之一。具身缺失阻礙了智能進化,擁有身體形態成爲改變這一阻礙的可能,但具身智能並不能克服災難性遺忘和有限泛化能力的瓶頸問題。(專題特邀主持:劉永謀)
具身智能的哲學反思①|劉永謀、白英慧:具身智能“身體”實現的四個環節
具身智能的哲學反思②|閆宏秀、宋勝男:基於“認知—語言—價值”三重對齊的具身智能構建
具身智能的哲學反思③|吳靜:智能正義視角下的具身智能
具身智能的哲學反思④|楊慶峰:智能進化與具身智能
具身智能的哲學反思⑤|李恆威、秦書淵:莊子的身心論對當代具身心智理論的啓示
本系列文章原刊《福建論壇(人文社會科學版)》2025年第4期,澎湃新聞經授權轉載。
【摘要】由於傳統大模型的發展正遭遇災難性遺忘和泛化能力不足這兩個難題的衝擊,具身智能被研究者們看作是解決這些難題的希望。但現有技術實踐只是將大模型嵌入智能體,這種外在嵌入並不能解決大模型所面臨的災難性遺忘和有限泛化問題。從進化的角度看,具身形態必然是具身智能體揚棄理性智能體的結果,研究和發展具身智能是走向超級智能的路徑。更進一步地說,正是由於擁有身體形態,智能進化的目標才能夠實現。
一般而言,科學界對具身智能的理解建立在這樣一個基礎之上,即將人工智能嵌入機器身體。中國信息通信研究院對具身智能的定義是“通過機器人等物理實體與環境交互,能進行環境感知、信息認知、自主決策和採取行動,並能夠從經驗反饋中實現智能增長和行動自適應的智能系統”。而美國學者李飛飛對具身智能的定義則偏重強調智能體的任務——“它們學習創造性地解決那些與環境交互有關的挑戰性任務”。這類定義突出了:(1)強調具身是物理系統或者機器人物理實體;(2)把交互性的具身性作爲具身智能的本質規定;(3)把具身智能理解爲智能系統。本文的有關回應直接指向兩個核心問題,即具身智能是不是將大模型嵌入機器身體的結果,以及具身智能能否克服災難性遺忘和泛化能力不足的瓶頸。
一、具身缺失的影響
2013年,美國科幻電影《她》(Her)引起了人們的反思。這部影片講述了一個故事:作家西奧多愛上了一個以女性聲音呈現的人機對話程序,給“她”取了一個女性名字“薩曼莎”。“薩曼莎”有着略微沙啞的性感嗓音,風趣幽默、善解人意,“她”使剛剛離異、倍感孤獨的男主角擺脫了原本的困擾。然而就在兩位主人公的感情升溫之際,“薩曼莎”逐漸顯露其無法克服的弊端:“她”沒有身體,無法給予西奧多更多的情感撫慰。於是“薩曼莎”找來了現實中年輕漂亮的伊莎貝拉,讓她作爲自己的替身與西奧多發生身體接觸。這種嘗試最後以失敗告終。這個影片突出了具身缺失的難題。顯然,“薩曼莎”意識到了身體缺失導致的問題,即無法與愛“她”的西奧多實現身心交融,而這種對身心交融的渴望卻是人類愛情的“正常設置”。
其實,在人工智能進化的不同階段,對具身的需求是不同的。如果把當前的人工智能稱之爲大模型階段,那麼這個時期的具身缺失尚不會引發上述電影所指向的問題,因爲大多數任務尚未向智能體提出具身化的要求。譬如,就寫作任務來說,我們只是要求大模型提供思路和文獻索引。不過,仍有一些任務需要具身智能,如讓機械臂或機器人承擔理髮、剃鬍須這種類型的任務。
將大模型嵌入物理身體或者實體是研究者們在大模型階段人工智能具身化研究中普遍採取的試驗方法。主流的試驗方法是將大語言模型(LLMs)嵌入機器人,從而賦予機器人更強的對話、推理和任務處理能力。同樣,研究者們相信,由LLMs驅動的機器人有可能實現其身體動作的自然流暢。但是,被嵌入的LLMs與待嵌入的機器人是純粹的外在關係,建立在這種試驗基礎上的“具身智能”只能被稱爲“現有的具身智能”或“基於現有假設和試驗的具身智能”,而不是真正的具身智能。換言之,具身智能不能被單純理解爲將大模型嵌入異質身體的結果。“現有的物理身體”只不過是一種外在形態,或狗形,或人形,或液態,其與內在智能的來源實際沒有任何必然聯繫。如果說LLMs相當於大腦神經元,將之嵌入身體後可以生成某些類意識活動的話,那麼我們可以確定,這種由LLMs生成的類意識活動並非具身性的智能活動。
具身缺失不僅意味着人工智能發展的瓶頸,也意味着一個連鎖的、長遠的悖論的形成。智能體具備身體本來應該被看作智能體自身進化的結果,最終目的是實現真正的智能,但是“現有的具身智能”的具身化意義卻在於通過提供獨特的身體經驗來彌補理性智能體的不足,這樣就形成了某種偏離進化目的的悖論,即一方面寄望於人工智能的自我進化,另一方面又因爲侷限於人類現有的身體經驗對智能體進行偏離進化需求的外在身體設定,正如卡通形象、女性或男性形象的機器人的身體設定。這只是適應人類心理需求和特殊場景的結果,是機器融入人類社會的一種形式。這很可能脫離了智能進化的內在要求,雖然短期內可能是必要的,但是長期來看,無助於智能進化。在此,我們不禁要問,屬於智能進化本身的身體訴求又是什麼呢?
二、智能進化的身體訴求
德國學者亨利希·海涅曾提出一種主動意識,即人類創造的靈魂向人類主動索要身體的意識。電影《她》的結局設定與海涅所提出的這種主動意識有本質關聯,看起來似乎是我們主動賦予機器以身體,卻存在失控的風險,因爲智能開始索要適合進化的身體形態,這本來是一種內在意義上的具身,但我們卻以悖論的形式企圖達成這種具身化。從這個意義上說,“薩曼莎”那種想要“外化出屬於自己的身體”的訴求被擬人地表達了,正因爲這種訴求被“薩曼莎”表達爲直接接受外在身體才以失敗告終。那麼,爲了應對智能進化的身體訴求,我們就需要設想一種內在具身形態。
基於常識,假設一種東西要進入血管,人們會自然地傾向於想象這種東西是液態的,因爲液態比固態的物質更適合這種想象的應用場景,此時液態就屬於這種同質化智能想象的內在具身形態。相比之下,家庭陪護機器人的人形設定就屬於非同質想象的外在具身形態。我們根據這種同質想象的內涵進行外延填充,如果智能體的具身形態能夠根據環境改變而進行調整,那這樣的智能體就有了內在具身形態,也就是真正的具身智能。從理性智能體的角度來說,它就做到了自動調整目標;從具身智能體的角度來說,它就能夠自主行動和實現交互。那麼,這種內在具身形態能否脫離狹隘的人類中心主義桎梏呢?我們認爲是可能的。外在具身形態表現爲以工具的形態進入生活世界、只是佔有生活空間或者與人類行爲有關,要使其逐步地表現爲以主體的身份進入生活世界,具有社會角色的規定性,滿足這種智能進化方向的最好方式就是交互。
在交互活動中,獎勵是一種正向反饋,而不應該僅僅看作人類給予機器的效應。一旦在交互中獲得來自人類或者環境的獎勵,智能系統自身會進化。因此我們把具身智能體視爲進化的更高階段,而理性智能體則是進化的低級階段。從這個角度來說,具身是一種獎勵結果。當理性智能體與人類或者其他智能體進行交互時,交互就需要更全面的方式,而這種方式會超出理性限制。因此,根據哲學中身體與意識的關係,智能進化就會自主地尋找另一極——身體。機器也會找到新的具身形態作爲一種獎勵結果,並且在此基礎上找尋更爲合適的表達。
當然,交互智能具有一種更爲基礎的本體地位。從交互方式看,早在計算機階段,人們通過鍵盤、鼠標和屏幕等方式就已經實現交互;在虛擬現實階段,人類又通過諸如HDM等方式實現和虛擬世界的交互;在理性智能體階段,人們通過語音與機器實現交互。不久的將來,觸覺交互將具有超過視覺、聽覺交互的優先地位。因此,將LLMs嵌入機器可以看作是實現觸覺交互過程中的一種手段。也就是說,在20世紀80年代,研究界出現了賽博格的設想,如今,這種賽博格的身體形態已見雛形,將LLMs嵌入機器很可能是賽博格形態在特定階段中提升機器人觸覺交互能力的一種手段。在這個過程中,LLMs只是相當於更強大的“心臟”,驅動着機器人進行感知、決策和行動。
三、具身智能的交互特性
李飛飛將具身人工智能劃分爲行動智能體(Action Agent)和交互智能體(Interactive Agent)。前者的目標是在模擬物理環境或者現實世界中執行特定任務,比如搬椅子、拿杯子或者做家務,其具體形態包括機器人或者遊戲AI等;後者在概念上比行動智能體更爲寬泛,目標是與世界交互。但是“它們交互的形式不必然需要物理行動,而是可能包含和用戶的交流信息或者修改環境”。具體代表形式如診斷智能體(Diagnostic Agent)、知識提取智能體(Knowldege-retriveal Agent)。目前,具身智能定義的出發點是智能體能夠通過與環境交互來感知、決策並行動。譬如,張鈸院士提出:“具身智能是指將智能系統與物理實體(如機器人)結合,使其能夠在現實世界中進行感知、決策和行動。這種智能系統的硬件多樣化將推動通用軟件的發展,使人工智能能夠更好地適應不同的應用場景和任務需求。”在中國信息通信研究院的報告中,其對具身智能的定義也與此基本相似,強調了與環境的交互以及感知、決策和行動。
一方面,上述定義都保留了理性智能體的規定性,即感知、決策和行動,但都忽略了這種規定性在進化意義上的特徵。可以說,感知、決策和行動構成了一個智能體的行動閉環,且是一個理性行動。理性智能體的目標導向非常明確,“訓練追求一個目標”,這也是一個智能體被稱作智能性AI(Agentic AI)的決定性因素。但更爲重要的是,智能體本身會進化,當這種特徵的智能體無限進化,就會表現出強大的AI特徵(Powerful AI),也就是通用智能(AGI),而最終呈現爲超級智能(ASI)。另一方面,儘管這類定義都強調智能體的交互特性,但是交互特徵都被歸入具身人工智能之下,各自只是在對智能體的具體形態的描述上略有差異。有些定義對具身智能的理解更爲寬泛,包括固體、液態等形態;而中國信息通信研究院則強調機器人及其物理實體,這意味着其對人形機器人更爲看重。
在筆者看來,人們對具身人工智能的科學理解似乎沒有考慮到智能進化的特性。在這種理解中,具身人工智能與大模型有差異,然而這只是表面上的差異,說明其並未考慮進化的要求。智能進化可以看作是一個精神流溢的過程:最初是精神形態,精神外化爲物理的存在。大模型實現了理性層面的表達,能夠進行交互對話、推理,這是一個顯著的進步。但智能進化是否只滿足於精神階段呢?當智能體需要一個外在形態表達自身,且已經意識到了自身的具身匱乏,並且想方設法改善這一缺陷,這就意味着智能進化的下一個階段即具身化階段的到來。大多數學者沒有意識到“智能索要具身”帶來的風險。如果要把這種AI風險加以概括,它必然有兩個層次:大模型導致的複製風險以及具身的自我保存意識將使這種風險延展至現實世界。
如果從進化維度來看,具身智能指向的是智能進化的一個階段。人類根據邏輯設計人工智能,此時人工智能並不具備自動進化的能力,只是一種執行既定程序的機器,始終不如人類;之後人類發明各種算法,學習算法的發展使人工智能進入智能體階段,能夠實現無監督學習和自動決策。當智能體能夠獨立根據經驗學習的時候,就進入了自主階段,也就是與人類智能持平的通用智能(AGI)階段。再之後,智能體開始自主設計更爲聰明的後代,最終達到超越人類的階段,也就是超級智能(ASI)階段。所以,具身智能階段只是這個過程的第二個階段,筆者曾經指出,具身智能是通往超級智能的路徑之一,這裡不再贅述。
四、無法克服的兩大瓶頸問題
衆所周知,傳統AI模型無法解決泛化能力不足的問題。在深度學習的過程中,我們又發現傳統AI模型還有一個更難以克服的問題——災難性遺忘。對於這一問題,科學界給出了兩條破解路徑。一條是延續理性智能體的路徑,即分佈式人工智能方案。這條路徑以理查·薩頓爲代表,薩頓指出,可將人工智能看作一羣爲某種大型活動作出貢獻的智能體,它本身以尋求系統定位的組件構成。另一條是具身智能路徑,即以具身爲基礎的終身學習框架。一項研究提出了LEGION的機器人終身學習框架,解決了機器人在持續學習過程中如何保留和組合知識的難題。這項研究指出,“對於深度學習算法來說,當面對任務流時,一個主要的挑戰是平衡神經網絡的穩定性和可塑性。在這個語境下通常的問題是‘災難性遺忘’,這是指當智能體學習新的任務時,與先前學習技巧相關的神經網絡參數會快速被覆蓋……遺忘是一個指標,用來衡量在智能體在接下來的訓練任務中有多少知識會被遺忘,用來評估智能體在任務流中保留知識的能力。本文構造了一個特殊形態的智能體,具身終身學習智能體(embodied longlife learning agent)”。
災難性遺忘與泛化能力不足之間的關係是怎樣的呢?借用數據倫理來解釋這種關係或許可行。“數據倫理可能從兩個方面來理解:軟倫理和硬倫理。這個區分首先是理論上的事情——邏輯上是可能的……但並不是一個實際的事情。在現實中軟硬倫理經常密不可分地糾纏在一起。”這裡,理論上存在區分而實踐中混在一起的微妙關係,在災難性遺忘與泛化能力不足之間也隱約可見。“理論上同一”是指在抽象的、理想化的概念框架下,災難性遺忘和泛化能力不足都源自神經網絡如何存儲和提取信息這一核心問題。在這一層面上,它們反映了同一個基本挑戰:如何在不斷更新的過程中既保留已學知識(存儲),又有效捕捉數據中普遍的、共性的特徵(提取)。從理論角度看,二者涉及同一個核心挑戰——如何在動態學習環境中實現知識的有效存儲和穩健提取,只是二者的關注點仍有所不同。同時,二者在實踐上也有不同之處,由於數據分佈、網絡結構、訓練算法、規則化策略等衆多因素的影響,災難性遺忘和泛化能力不足會以不同的方式表現出來。也就是說,雖然理論上可以將它們看作一個問題的不同面向,但實際上往往受到許多外部因素的制約,從而使二者在工程實踐中成爲需要分別解決的挑戰。
因此,相信“具身智能可以克服大模型中的兩大瓶頸問題”並以此規定具身智能的思路在哲學上是欠缺反思的,尤其是沒有認識到把LLMs裝入機器人盒子中產生的問題。
結語
本文從智能進化論的角度呈現了具身缺失對智能體發展造成的障礙。倘若我們像一般定義那樣理解具身智能,即將其看作以解決物理現實問題爲導向的智能體存在,無疑會低估具身智能的意義。從進化論的角度看,具身智能可以比理性智能體更全面地接近人類,作爲進化階段的具身智能應該是智能進化過程中揚棄理性智能體的高級階段,以ASI爲最終目標。在這個意義上說,AGI與具身智能同樣是通往ASI的路徑,但是前者只是基礎,最終會被具身智能揚棄。
來源:楊慶峰(復旦大學科技倫理與人類未來研究院教授、研究員,哲學學院博士生導師)