具身智能的哲學反思①|劉永謀、白英慧:具身智能“身體”實現的四個環節
近期,大模型和人形機器人備受社會各界關注,很多人在思考:如何讓二者有效“融合”切實推動具身智能的發展?顧名思義,具身智能是具有“身體”的人工智能。具身智能爲大模型的應用提供了更廣闊的平臺,使之從“賽博空間”走向物理世界;具身智能讓機器人變得更“聰明”,與人類的交流更爲順暢。具身智能的發展給哲學反思帶來不少挑戰,本組筆談聚焦具身智能的定義、本質特徵、類型和實現的可能性等基本理論問題,以期推動該領域研究的進一步發展。劉永謀、白英慧認爲,追問具身智能的“身體”問題,主要涉及“身體”的劃界、預裝、融合與賦能等方面,這些問題相互交織、層層遞進。
本系列文章原刊《福建論壇(人文社會科學版)》2025年第4期,澎湃新聞經授權轉載。
【摘要】在AI專業領域中,主流觀點將具身智能視爲大模型與機器人的融合。與離身智能不同,具身智能依賴於具有可區分性和可控制性的“身體”。這意味着具身智能需要進行“身體”預裝,即通過編碼嵌入和人羣學習路徑,將世界模型和軀體標記內嵌於機器人,使其具有一定的“身體”智能。“身體”預裝應從實用主義出發,綜合考慮“身體”的形狀、大小、材質及重量,盲目模仿人形並非最佳選擇。更進一步來說,“身體”與大模型的融合並非簡單拼湊,而是強調整體性,目的是導向具身認知。“身體”能夠賦予機器人四大核心能力,即感知能力、空間能力、交互能力和情感能力,從而顯著提升機器人的整體智能水平。
在2025年第十四屆全國人民代表大會第三次會議上,具身智能首次被寫入政府工作報告,並被列爲未來產業培育的重點方向。近年來,機器人產業(尤其是人形機器人)的快速發展,使得具身智能在人工智能領域備受關注。在相關研究中,“身體”問題已成爲具身智能探討的核心議題,涵蓋“身體”的劃界、預裝、融合與賦能等關鍵環節,亟需進行系統梳理和深入探討。其中,“身體”的劃界問題旨在區分“身體”和“非身體”,釐清具身智能的物理與功能的邊界;“身體”的預裝問題追問“身體”智能的前設條件,剖析其預裝路徑和困境;“身體”的融合問題包括“身體”與大模型深度耦合的本質和麪臨的挑戰;“身體”賦能問題則關注“身體”賦予具身智能的關鍵能力。這四個問題彼此交織、層層遞進:“身體”劃界是預裝與融合的前提,“身體”預裝爲融合與賦能提供可能。這個框架不僅是對具身智能的哲學反思,也爲其技術實現和應用落地提供了思考方向。
一、“身體”與“非身體”的劃界
具身智能(Embodied Intelligence)作爲一種智能範式,強調智能是在“身體”與其所處環境的持續交互中涌現的。瓦雷拉等學者認爲,“具身”概念強調兩點:“第一,認知依賴於經驗的種類,這些經驗來自具有各種感知運動的身體;第二,這些個體的感知運動能力自身內含在(embedded)一個更廣泛的生物、心理和文化的情境中”。與離身智能(如ChatGPT、DeepSeek等)不同,具身智能強調智能對“身體”的依賴性、“身體”與環境的統一性,反對將智能視爲脫離“身體”而存在的抽象的計算過程或符號操作。換言之,區別具身智能與離身智能的核心問題在於:智能的生成與實現是否必然依賴“身體”。有觀點反駁稱,離身智能同樣具有“身體”(如處理器、內存、傳感器等硬件裝置),這類智能雖然主要基於軟件層面的計算邏輯,但仍離不開物理硬件的支持。這種觀點在本質上對“身體”概念的理解存在偏差。
“身體”並非單純的物理載體,其具有雙重屬性:既是客體,又是主體。在西方哲學史中,關於“身體”的討論長期受到笛卡爾身心二元論的影響,“身體”被視爲獨立、純粹的物質實體,類似於一部複雜的機器,受控於心靈。在此語境中,離身智能將“身體”視作客體,以一種抽象化的、第三人稱的視角界定“身體”,認爲“身體”僅僅是信息輸入和輸出的通道,忽視了“身體”在感知、認知和交互方面的主動作用。與之相對,具身智能認爲,“身體”不僅是信息處理的媒介,更是感知世界、體驗情感、執行意圖的主體,是智能活動的內在參與者。具身智能從能動的、第一人稱的視角理解“身體”,認爲“身體”在環境中的體驗構成了智能生成的基礎。正如梅洛-龐蒂所主張的,“身體”與“心靈”融爲一體、不可分割,可被稱爲“身體主體”,其不僅僅作爲物質載體而存在,還作爲感知—運動的主體與具體情境持續互動。
因此,在具身智能的語境下,“身體”與“非身體”的劃界不僅取決於其是否擁有物理基礎,關鍵還在於其是否具備主動感知、交互運動和靈活適應的能力。具體而言,“身體”的核心特徵在於可區分性和可控制性。可區分性意味着,具身智能雖然始終嵌入環境之中,但仍具備從根本上區分自身“身體”與環境的能力。埃塞基爾·迪·保羅和埃文·湯普森提出的“自我個體化”(Self-individuating)概念強調,“身體”能夠主動生成並維持自身與環境之間的區分。這種區分能力依賴於“身體”的多層次感知系統:環境感知用於接收外部信號,“身體”感知用於監測內部狀態,而內容感知則涵蓋話語、思想和共情感知,依託於其它感官所提供的信息而工作。這些感知機制協同作用,共同塑造了“身體”的可區分性。例如,現有的許多機器人模仿人類身體的多層次感知系統,已經初步具備了多模態感知的能力,能夠在一定程度上區分自我運動與環境擾動。
以可區分性爲基礎,可控制性進一步強調,“身體”能夠自主調整或在大模型的調控下改變自身的基本形態、運動路徑和交互方式,以適應環境並完成特定任務。與之相比,“非身體”通常形態固定,缺乏運動與動態交互的能力。在具身智能的技術實踐中,波士頓動力公司的Atlas機器人展現出高超的運動控制能力,能夠完成跳躍、後空翻等複雜動作,並在遭受外力干擾時能即時調整姿勢以維持平衡。該機器人還能根據地形的變化動態調整關節角度,實現在崎嶇地形上的平穩行走。此外,具有柔性結構的軟體機器人具備自適應形態調整的能力,能夠根據外部環境主動調整自身形狀與柔軟度,從而優化運動模式。
二、具身智能的“身體”預裝
如前所述,具身智能的“身體”並非只是由傳感器、執行器等構成的物理系統,還具有可區分性和可控制性的特徵,此種特徵的實現需要借鑑人類擁有的世界模型以及軀體標記的能力。2007年,英國認知科學家克里斯·弗里斯和卡爾·弗里斯頓提出“世界模型”的假設,認爲人類大腦中存在着一個“反映物理世界和他人的思想世界”的模型,人類的大腦將這一模型與身體感知到的內容進行對比,以減少預測誤差並不斷優化模型。而感知最初所需要的一些先驗知識,已經過數百萬年的進化植根於人類大腦之中。“世界模型”假設的提出有助於智能體理解真實的世界,進而具備因果推理、預測分析等能力。2018年,大衛·哈等人將世界模型概念系統性地引入人工智能研究領域,這引發了學界的熱議,認爲它不但包含着對世界的理解,而且指向了對未來的預測。除了世界模型,軀體標記的能力對於具身智能也十分重要。安東尼奧·達馬西奧指出,情緒通過軀體標記的方式參與推理過程。在某種情境下,當負面結果出現時,人體驗到不愉快的軀體感受,即達馬西奧所稱的“軀體狀態”。此種負面結果與某種情緒相關聯,便形成了軀體標記。當類似情境再次出現時,身體便會表現出某種軀體狀態,負面結果立刻被預測,軀體標記從而參與到推理過程之中。需要指出的是,軀體標記可以在意識之外做出預測、進行推理,這意味着身體本身具備了一定的基礎性智能。
不難看出,將世界模型和軀體標記預裝進機器人的“身體”無疑將打造更加類人的具身智能。大致來說,存在着兩條預裝路徑:編碼嵌入和人羣學習。編碼嵌入路徑通過形式化語言,將世界模型中的人類常識以及人類的軀體標記編碼爲機器人可識別的符號規則,但這面臨着三重困境。首先,常識和軀體標記難以窮盡。常識作爲一種覆蓋面極廣卻邊界模糊的知識體系,涵蓋從日常經驗到專業認知的多個層面;軀體標記則建立在豐富的生命經驗和情緒記憶基礎之上,涉及對多種生理、心理狀態的綜合感知,異常複雜。因此,形式化編碼不可能覆蓋所有常識以及軀體標記,這導致智能體存在着認知盲區。其次,常識和軀體標記具有時空差異性。常識並非靜態的知識系統,而是嵌入特定歷史、文化與社會語境之中的生成性知識;軀體標記在很大程度上依賴個體生命歷程中積累的生理經驗。如果編碼更新滯後或成本過高,智能體將難以適應快速變化的環境,從而引發錯誤或低效的行爲。最後,部分常識和軀體標記無法被編碼。人類的許多常識以意會知識的形式存在,它們雖然可以被人類本能地理解並應用,但難以通過符號化的方式進行清晰的表達;軀體標記所具有的情緒性、模糊性和情境性特徵也限制了其完全被形式化表達的可能性。此外,人羣學習路徑是一種基於集體經驗和互動反饋來構建世界模型和軀體標記的預裝路徑,主要依賴於大規模的數據採集、集體行爲觀察和社會互動學習。此路徑雖然在某種程度上能夠規避編碼嵌入路徑的滯後性等侷限,但仍面臨着挑戰:第一,學習效率低下。智能體學習豐富的人羣數據需耗費大量的時間成本,並且難以避免數據噪聲、數據偏見、數據錯誤的干擾;第二,某些知識難以習得,如人類行爲背後的因果關係等。
即便上述預裝路徑所面臨的困境能夠被突破,實現“身體”智能仍將面臨一個相當棘手的問題:現有的編碼嵌入和人羣學習路徑普遍預設可將人類的世界模型和軀體標記直接複製到機器人的“身體”上,然而,世界模型和軀體標記本質上是個體基於自身身體與環境交互而生成的認知體系及推理機制。由於機器人“身體”與人類身體存在着無限性與有限性、可變性與固定性等差異,在預裝過程中,世界模型和軀體標記不能簡單照搬,而應進行適應性調整。機器人“身體”是可變形、可拆卸、可替換的,因而機器人的世界模型必須具備跨形態適應能力和認知連續性機制,其數據存儲和計算架構應趨向模塊化設計,以支持“身體”部件的靈活更換。此外,還應構建一種基於機器人自身動作能力和環境適應性的“機器軀體標記”系統,以能量消耗、運動精度、穩定性等參數替代人類的諸種軀體感受和情緒反應。
除世界模型和軀體標記外,具身智能的“身體”預裝還應重點考慮“身體”的形狀、大小、材質及重量。這些因素的變化影響着具身智能的感知能力、運動能力、交互能力,從功能主義和實用主義的角度來看,這些“身體”因素應服務於具身智能的任務需求和生存環境。在許多情況下,模仿人形並非最佳選擇。我們或許可以從大自然中獲得啓發:不同物種在進化過程中形成了不同的形態,產生了不同的智能,因而具身智能不必侷限於人形,應在多樣化的形態中尋找最優的感知和行動方式,以實現更高效的智能。例如,在工業領域,應優化具身智能的剛性結構以提升負載能力,並採用多關節機械臂形態以增強操作靈活性和自由度;在救援領域,機器人的柔性結構與變形能力尤爲關鍵,高機動性的多足設計可提升其對複雜地形的適應能力;在社交領域,可考慮爲機器人設計類人形態、擬人表情,尤其是可愛的外觀、柔和的聲音,從而加強人機互動和減少用戶的恐懼感。
三、“身體”與大模型的融合
世界模型和軀體標記的“身體”預裝賦予了具身智能一定的“身體”智能,但要想讓機器人實現更高層次的智能,還需聚焦於機器人“身體”與大模型的融合。與世界模型相比,大模型具備兩個方面的優勢:一是世界模型通過模擬環境動態來表徵現實世界的物理規律,而大模型則具有高級語義推理能力和跨領域知識整合能力;二是世界模型擅長短期狀態預測,而大模型在長時序任務規劃和策略推演上更具優勢。不過,這並非說大模型可以完全取代世界模型或軀體標記,如“身體”可以通過軀體標記的方式自帶基礎智能,從而有效彌補大模型計算智能的不足。因此,要充分認識“身體”與大模型在不同方面的互補性,據此提升具身智能的整體智能水平。
那麼,“身體”與大模型的融合究竟意味着什麼?必須明確的是,融合並非簡單拼湊,而是強調整體性,目的是導向具身認知。換言之,融合並不意味着“身體”與大模型的功能疊加,而是二者在智能架構方面的深度協同。當二者功能疊加時會導致靜態規劃與動態執行的割裂,這是因爲大模型僅能夠提供靜態的任務規劃,而“身體”在執行時無法靈活調整策略,導致智能體無法適應環境的變化。而當“身體”與大模型深度協同時,“身體”能夠通過世界模型預測環境的變化並即時反饋給大模型,大模型也能實時調整任務目標。如此一來,“身體”與大模型相互依賴,形成“感知—推理—決策—執行”的閉環系統,從而顯著提升具身智能在開放環境中的任務適應性、魯棒性及跨模態泛化能力。
羅納德·克里斯利和湯姆·齊姆克將具身性標準分爲四個層次,從寬鬆到嚴格依次爲:(1)物理實現(Physical Realization),具身系統只需依託於某種物理機制即可;(2)物理具身(Physical Embodiment),具身系統必須在一個連貫且整體的物理結構中實現;(3)有機狀具身(Organismoid Embodiment),具身系統的局部物理實現應當在形態或感知—運動能力方面與自然生物的身體共享某些(可能是表層的)特徵,但並不要求其在任何意義上是有生命的;(4)有機體具身(Organismal Embodiment),具身智能的“身體”不僅是類生物的,還必須是有生命的、真正的生物體。照此標準,物理實現更多屬於一種離身智能,而物理具身僅是“身體”與大模型的簡單拼湊,屬於形式上的具身智能,其並不具備具身認知,未涉及到融合的本質,只有實現有機狀具身才可稱得上是“身體”與大模型的融合。
但是,就現階段而言,“身體”與大模型的融合仍面臨着諸多挑戰。首先,大模型依賴機器學習方法進行訓練,然而目前的機器學習方法難以直接應用於機器人,存在泛化能力不足、適應性欠缺、主動探索能力薄弱、忽視長時段交互的潛在影響等問題。因此,大模型或許難以從根本上與機器人“身體”實現真正的深度融合。其次,在未來“身體”與大模型的融合可能不再是“一對一”的固定關係,而是“一對多”的模式:同一大模型可以適配不同的“身體”,而同一“身體”可搭載不同的大模型。這反映了一種邁向通用人工智能的趨勢,雖然這一趨勢可能帶來技術的突破,但仍需時刻對其保持警惕。從技術層面來看,這一趨勢面臨跨平臺適配與對齊問題,不同機器人“身體”的傳感器類型、效應器驅動方式等存在差異,隨意更換大模型或機器人“身體”可能導致控制失穩,甚至完全失效,從而引發安全風險。從倫理層面來看,這一趨勢使潛在責任主體的數量大幅增加,一旦發生事故,將難以釐清併合理劃分事故責任。同時,“身體”與大模型之間“一對多”的關係意味着不同平臺之間需要共享數據,這極有可能造成隱私的泄露和數據的濫用,進一步加劇倫理和法律風險。最後,“身體”與大模型具有邊界不一致性,大模型通常依賴雲端計算並基於全局數據進行推理,而“身體”則主要是本地實體,用於感知並響應局部環境。當網絡狀況受限或計算資源不足時,這種架構差異可能導致信息滯後、決策偏差,甚至增加系統被惡意篡改的風險,從而對具身智能的穩定性和安全性構成威脅。
四、AI機器人的具身賦能
經過“身體”預裝以及“身體”與大模型的融合,具身智能有望得以實現。目前學界以“身體”爲標準,認爲智能包含離身向度和具身向度,人類智能便是這二者的統一體。那麼,在具身智能中,具身向度究竟賦予了AI機器人哪些關鍵能力?綜合學界的討論,可以發現“身體”主要賦予了具身智能以下四大核心能力:感知能力、空間能力、交互能力和情感能力。
感知能力即具身智能通過“身體”感官獲取並理解環境信息的能力,AI機器人可通過視覺、聽覺、嗅覺、力覺等多模態傳感器主動感知外部物理世界,並將感知信息轉化爲可用於推理和決策的認知表徵。“身體”可以提供直接的感知通道,通過動作與反饋之間的循環使感知具有能動性和動態性,實現從被動接收向主動探測的轉變,能夠極大提升AI機器人的環境適應性以及任務執行精度。例如,達芬奇手術機器人依靠高精度攝像頭和力反饋系統,能夠輔助外科醫生完成微創手術,極大提高手術精度。相比之下,智身智能主要依賴大規模數據訓練和離線推理,其感知方式往往是靜態的、間接的,難以完全模擬物理世界的複雜性和實時變化。
空間能力即具身智能識別物理空間、控制“身體”姿態並實現空間運動的能力,具體涵蓋路徑規劃、障礙躲避、目標定位、物體操作等方面,這些能力使AI機器人能夠在三維空間中高效執行任務。AI機器人的空間認知依賴其“身體”的空間體驗並基於此構建空間模型,同時通過“身體”控制實現空間運動和操作。總體而言,空間能力爲AI機器人自主導航和路徑優化賦能,使其能夠預測空間可行性並動態調整路徑。例如,自動駕駛機器人使用計算機視覺、激光雷達和地圖數據,能夠預測其他車輛、行人和障礙物的運動軌跡並進行規避。同時,它還能在不同城市、天氣、路況下進行道路識別,實時調整路徑規劃,靈活適應駕駛規則。
交互能力即具身智能通過“身體”與環境、其它智能體以及人類進行多模態交流的能力,涵蓋語言交流、“身體”姿態、觸覺反饋、環境感知以及社交行爲等方面。“身體”之所以對機器人的交互能力至關重要,是因爲交互包含各種非語言因素,需要通過“身體”進行展示和傳遞。換言之,“身體”能夠提供許多額外信息,使交互更加自然、深入。此外,交互能力對於具身智能的重要之處在於,其能夠使智能體之間、人機之間的協作更加流暢和高效。例如,軟銀Pepper機器人能夠識別他者的面部表情和語音情緒,並動態調整自身語調和肢體語言,以便進行更自然的社交互動。在日本,Mizuho銀行使用Pepper機器人作爲接待助手,爲客戶導航和辦理業務。
情感能力即識別、表達和響應情感的能力,它不僅源於認知計算,還高度依賴具身體驗。身體狀態是情感的重要影響因素,如身體疲勞時更容易感到憤怒和煩躁。此外,在情感智能中聯想能力至關重要。當一個人感受到輕微的觸摸時,他的聯想中心便會根據經驗進行推斷:如果聯想到的是伴侶在撓癢癢,便會產生愉悅和親密之感;如果聯想到的是蜘蛛在爬,便會產生恐懼或厭惡情緒。這種情感歸因的聯想過程,是人類基於經驗、情境、記憶和身體感知的高度複雜的認知活動。然而,對於具身智能而言,如何實現類似的聯想能力仍是一個重大挑戰。人類的聯想方式受到文化背景、個性化經歷、社會環境的深刻影響,但具身智能缺乏真正的個性化體驗和長期情感記憶,無法真正建立像人類一樣的聯想記憶庫。如今,情感能力能夠提升具身智能在老年護理、心理疏導、兒童陪伴、人機戀愛等方面的互動質量和用戶體驗,潛在的應用價值巨大。因此,在未來應引導情感智能的發展朝着健康、安全、負責任的方向推進,從而使具身智能真正成爲人類社會的可靠助手和溫暖陪伴者。
來源:劉永謀(中國人民大學哲學院教授、博士生導師、中國人民大學吳玉章講席教授)、白英慧(中國人民大學哲學院博士研究生)