倪光南:AI與空間計算融合,讓機器人看懂、理解世界

21世紀經濟報道記者孔海麗、實習生鄭子涵 北京報道

在2025世界機器人大會上,中國工程院院士倪光南做了題爲《“AI +空間計算”讓機器看懂世界》的演講,他指出,AI與空間計算的融合,是當前落實國家“人工智能+”行動的關鍵核心技術,它正在重構三維物理世界,拓展大模型通向物理世界的橋樑。

倪光南認爲,機器人產業正處在從自動化工具向智能化主體發展的關鍵時期。要實現這一跨越,核心在於提升機器人的智能水平,讓機器人能夠真正地“看見世界、理解世界、行動於世界”。

他在演講中強調,視覺是智能的起點。倪光南引用數據指出,一個4歲小孩通過視覺在四年中學到的視頻信息量,與一個典型大語言模型學習的互聯網全部公開文本信息量相當,這說明要讓AI真正認識和理解世界,僅靠文本信息是遠遠不夠的,必須重視視覺信息。

“空間計算是對物理世界的重構,而不是像大語言模型那樣去生成。”倪光南表示,AI與空間計算的融合,能夠讓機器人通過低成本的純視覺解決方案,精準感知三維空間、識別目標物體,並進行高精度的自主移動與生產作業。

倪光南將當前製造業的發展分爲傳統工業化(工業4.0)和新型工業化(工業5.0)兩個階段。他指出,在新型工業化階段,機器人將從被動的自動化工具,轉變爲能夠自主決策的智能化主體;控制方式從實時操作系統,演進爲“腦、眼、行動”一體化的具身智能系統;工作模式也從固定工位發展爲多工位移動作業。

爲實現這一目標,倪光南提出了構建機器人“腦、眼、行動”一體化具身智能系統的構想。

腦:即基於大模型的機器人大腦,使其能夠接受任務、自主規劃並適應各種場景需求。

眼:即機器人的視覺系統,他建議採用“AI+空間計算”的技術路線,通過普通單目攝像頭與神經網絡學習的結合,實現高性價比、高精度的三維視覺感知。

行動:即機器人的操作系統,他推薦使用由中國科學院軟件所支持的開源機器人操作系統AgileROS,通過開源開放、協同創新,爲智能機器人發展打下堅實基礎。

展望未來,倪光南認爲構建自主的AI機器人生態系統至關重要。他類比PC時代的Wintel聯盟和移動時代的安卓+ARM聯盟,提出未來AI機器人時代應構建基於RISC-V芯片架構與AgileROS等開源系統的“腦、眼、行動”一體化智能系統新生態。

“在人工智能引領科技和產業變革的時代,發展AI機器人的關鍵在於提升其智能水平。”倪光南總結說,通過構建“腦、眼、行動”的具身智能系統,才能讓機器人真正看懂世界,從而更好地發揮其作爲新質生產力的核心作用。

以下爲21世紀經濟報道記者整理的倪光南院士演講全文:

AI+空間計算開啓了從二維交互向三維交互發展的新方式。空間計算作爲一種全新的計算方式,是物理世界和數字世界之間的橋樑,正在重塑人、機器與世界的交互方式,是推動機器人落地的關鍵核心技術之一。回顧交互方式的演進歷程,從電報、文字到圖形、視頻,目前,我們正進入從二維交互向三維交互發展的重要時期,空間計算在其中起着重要作用。

空間計算是對物理世界的重構,而非生成。當前,大語言模型引領了科技的發展,但大語言模型並非世界的全部,生成式AI也無法完全複製複雜的物理世界。空間計算和AI的融合,以一種全新的方式重構三維物理世界,拓展了大模型通向物理世界的橋樑,促進了物理世界和數字世界的融合。因此,我們認爲AI+空間計算是當前落實“人工智能+”行動的一項關鍵核心技術。在圖上也展示了交互發展的幾個階段。

首先要強調的是,視覺是智能的起點。AI的眼睛,即AI+空間計算,其目的在於提升視覺功能。在生物進化史中,智能的起點是視覺,爲了處理視覺信息,大腦的多個層面都需要參與。圖靈獎獲得者楊立昆(Yann LeCun)教授有一個說法:一個典型大模型學習的信息量大約是10^14字節,相當於互聯網上所有公開文本信息量的總和,一個人可能需要幾十萬年才能學完。但是,一個四歲的小孩在四年中通過眼睛能學到的視頻信息量,也大約是10^14字節。這說明,大語言模型僅靠文本信息進行訓練是不足的,要認識世界、理解世界,還需要海量的視頻信息。

爲此,我們要重視眼睛。視覺是智能的起點,是實現感知與控制的基礎,是大腦和物理世界之間的橋樑。接下來,我們通過一段視頻來展示一個“AI+”機器人在工廠的實際工作情況。視頻中的綠色小窗口是機器人看到的世界,與人眼所見大體相當,但增加了機器人利用“AI+空間視覺”進行的理解和建模過程。

(視頻內容)“Albert空間智能鎖付機器人與傳統複合機器人的區別在於其具備了強大的視覺感知和自主思考能力。它採用低成本的純視覺解決方案,即可實現L4級自主移動與生產作業。憑藉其空間智能,視覺機器人能夠精準感知三維空間並識別目標物體,在無需固定工件位置的前提下,也能將鎖付精度穩定控制在200微米,這一指標在全球同類技術中處於領先地位。更重要的是,Albert空間智能鎖付機器人集成了AI大模型驅動的持續學習與優化能力,通過不斷學習完善,從而更可靠、更穩定地完成複雜的生產任務。”

從視頻中我們看到,機器人因爲有了眼睛,可以在移動環境中快速觀察環境,確定精確位置。在動態情況下,將精度控制在200微米,是目前一項非常難實現的技術。

下面的表格展示了在不同工業化時期,製造業與機器人的變化。我們將時期分爲傳統工業化和新型工業化。傳統工業化對應德國提出的工業4.0,而新型工業化則相當於我們所說的工業5.0。在製造業發展的不同時期,我們經歷了從自動化到智能化的演進,現在則進入了“AI+工業製造”的新階段。對於工廠而言,過去的生產模式強調剛性化、標準化,而現在則要融合柔性製造與定製化。在工廠管理上,過去是被動的人工排產,現在則由工廠大腦自主決策。在工業軟件方面,過去是多個軟件的獨立應用,在新一代模式下,許多工業軟件會以工作流的方式滲透到整個工作流程中。

數字世界與物理世界的關係,過去是映射關係,現在則要實現二者的深度融合。對於機器人而言,要從自動化的工具轉變爲智能化的主體。作爲工廠的主體,其控制方式從過去的實時操作系統,演進爲現在的具身智能系統。以自動駕駛爲例,過去相當於L1到L3的半自動化水平,現在我們希望提升到L5的完全智能化水平。同樣,我們的操作方式也從按鍵、鍵盤、鼠標、屏幕,發展到可以使用自然語言與機器人交互,讓它去工作;編程方式也從人工編程發展到大模型編程。機器人的工作模式從固定工位發展到多工位移動作業,同時可以實現即插即用,無需複雜的部署調試。這樣,過去需要很長時間才能完成的高精度工作,現在通過移動作業,可以以很低的成本、很快的速度達到高精度。總的來說,我們希望未來人與機器在生產線上能夠協同工作、取長補短。

下面我們看一下中國機器人產業的情況。

機器人產業是未來產業、新興產業,其規模可能達到萬億元級別。在這樣巨大的機遇中,我們要通過發展機器人產業,發揮其作爲新質生產力的作用。

這裡我們特別強調機器人的智能化。通常,一個智能機器人可以分爲三大部分:腦、眼和行動系統。這三部分組合在一起,構成一個具身智能系統,才能夠全面體現機器人的智慧,發揮其作用。

目前,我們在“腦”和“眼”方面的投入尚有不足,是一個相對的短板,需要特別予以加強,以更好地提升機器人的效率。就像汽車的自動駕駛能力可以從L1到L5分爲不同等級一樣,機器人領域的一些組織也進行了相似的分類。

當前的機器人大體上處於L1到L3的水平。我們希望通過發展“眼”和“腦”,將機器人整體的智能水平提升到L4以上,這樣的機器人才真正能體現其能力,具備我們所強調的移動、自主、高精度等特性,從而真正在提升生產力方面發揮作用。機器人將要從自動化的工具發展到“AI+機器人”的階段。

整個過程,是我們要用機器人的智能系統來升級其原有的操作系統,使機器人的控制從實時操作系統,轉變爲“腦、眼、行動”一體化的智能系統,從而讓機器人能夠看見世界、理解世界、行動於世界。這就是我們所說的“AI+機器人”階段。

第一,腦。機器人必須有自己的大腦,這個大腦是基於大模型的。當前,大模型正在引領科技和生產的變革,因此,機器人的操作系統也需要提升到智能系統的水平,實現架構性的變革。從視頻中可以看到,一個機器人因爲有了大腦和眼睛,再結合行動控制,就能在工作中發揮重大作用。它可以真正地按照語音指令接受任務、自主規劃、進行操作,並適應各種場景的需求。

第二,眼。如前所述,視覺是智能的起點。從生物進化的歷史來看,機器人的智能系統應該突出眼睛的作用。目前來看,採用“AI+空間計算”的技術方案,即用普通的單目攝像頭加上神經網絡學習的方式,可以達到非常好的效果,能夠以很高的性價比,使機器人擁有類似人眼的優良視覺,具備很好的適應性、易用性和實用性。

第三,行動。機器人需要與它的本體,如手、腳、輪子等進行交互。因此,我們需要一個操作系統。我們建議使用由中國科學院軟件所支持的開源機器人操作系統AgileROS來支撐機器人的行動。這是一個標準的開源機器人操作系統,並擁有自己的AgileROS社區。它通過聯合機器人產學研各方面的資源,全面推進智能機器人領域的發展;通過開源開放、協同創新,爲智能機器人發展打下堅實的基礎。目前,已有大批的單位和開發者加入了這個社區。

我們相信,藉助開源的力量,AI機器人的“腦、眼、行動”系統的競爭力將大大增加,在全球產業中佔據應有的地位。

綜合來看,未來機器人核心將不再僅僅是一個操作系統,而是一個包含“腦、眼、行動”的具身智能系統。在這樣的系統支撐下,機器人將從過去自動化工藝的執行者,發展到人工智能時代的“AI+機器人”,獲得更高的智能、更好的性價比,發揮更大的競爭力與作用。

最後,我們的目標是構建“AI+機器人”的生態系統。歷史上,重要的新興領域都形成了強大的生態系統,例如PC時代的Wintel(Windows+Intel)聯盟,移動互聯網時代的ARM+Android聯盟。現在,在很多人正在推動的RISC-V芯片及其操作系統(如OpenHarmony等)的基礎上,我們要走向AI機器人和人工智能體的新世界。

我們要注重生態的構建。未來,我們希望能夠圍繞RISC-V芯片以及AgileROS等系統,形成一個“腦、眼、行動”一體化的、完整的智能系統新生態,並以此引領人工智能機器的新潮流。

今天的分享可以歸納爲兩點。第一,在當前人工智能引領科技和產業變革的時代,在國家實施“人工智能+”行動的大背景下,我們要把自動化的機器人發展爲AI機器人,讓“AI+機器人”更好地發揮其新質生產力的作用。第二,爲了達到這個目標,關鍵在於提升機器人的智能水平。我們要用“腦、眼、行動”一體化的系統來提高機器人的智能水平,真正讓機器人能夠看見世界、理解世界、行動於世界。謝謝大家。