努力讓具身智能“知行合一”
本報記者 葉 子
參賽馬拉松、進工廠“幹活”……最近一段時間以來,機器人火熱“出圈”,具身智能的概念進入大衆視野。作爲人工智能領域的前沿熱點,具身智能是什麼?發展情況如何?其中機器狗又有哪些優勢?本報就此採訪了北京大學工學院先進製造與機器人系助理教授劉珂。
記者:什麼是具身智能?它的核心特點是什麼?
劉珂:通俗地說,具身智能是指具有身體的智能。具身智能體本質上是一個機器,這個機器在物理世界中有一個真實的實體,還有一個先進的大腦。它的關鍵在於實體設備與智能決策的深度融合,能夠學習並執行各種任務。
具身智能並不限於特定的形態。人類被視爲目前已知唯一的通用具身智能體。然而,具身智能體也可以有其他形態,比如狗、機械臂、無人車等。
記者:比如讓機器人去拿咖啡,這個任務如何執行?
劉珂:理想情況下,首先機器人要聽懂這句話,提取關鍵詞“咖啡”,找到咖啡在哪,然後運動到咖啡所在的位置,分辨桌子上哪個是咖啡,再把這個咖啡拿回來,路上要保證液體不會灑掉,最後放好。對人來說這是很簡單的事情,但對機器人來說其實很難,因爲需要機器人理解指令,然後自己做規劃。
當下主流的處理方法叫視覺語言動作模型(VLA,Vision-Language-Action),輸入文本和視覺數據,輸出可以執行的動作。目前的問題是思考過程有了,即讓大語言模型去思考和拆分指令,就像DeepSeek的深度思考功能,但後續機器人的本體如何去執行這個思考過程,還沒有特別成熟的方法。因爲大語言模型本身沒有實體,不知道怎麼去移動肢體,胳膊伸出去多遠能拿到物體等。
現在我們把從思考到行動的整個流程連在一起去訓練機器人,目前爲止有一些突破,但無法達到理想中的泛化能力,也就是說,機器人學會了拿咖啡,相似地也會拿可樂、拿水,但還不會搬桌子,因爲對它而言這又是另一種任務。
我們說“知行合一”,現在機器人有了“知”,在“行”方面還不太成熟,它無法處理現實生活中的一些問題,更像一個謀士,我們要努力讓具身智能“知行合一”。現在的主要挑戰還是機器人動作空間太大,我們現有的人工智能算法相較於生物,在探索效率上還非常低。或許除了高級算法之外,更應當關注底層算法和本體結構的設計,這也是我們團隊現在重點關注的內容。比如動物有本能行爲,還有植物神經,而現在的機器人沒有,每一個動作都需要做大量計算。
記者:具身智能體有不同形態,相比其他類型,機器狗主要有哪些優勢?
劉珂:四足機器狗的主要好處是兼具靈活性和穩定性。從動力學控制方面來講,四足要比二足容易得多,因此機器狗的活動幅度比較大。相對於一米多高的人形機器人,機器狗的高度比較低,底盤更穩,運動起來能更好地保持穩定。此外,體積小也是機器狗的一個優勢,能在相對低矮狹窄的空間裡活動。
記者:當前,機器狗已經被應用到消防巡檢、應急救援、搬載重物、娛樂教育等場景中,如何評價它們的表現?未來還有哪些應用可能性?
劉珂:機器狗可以幫忙搬東西、巡檢,相對來說已經算比較有用的一種具身智能形態。但還是受限於重量和續航能力,現在機器狗的能量效率不是很高,只能用兩三個小時。這其中有電池的限制,還有它本身結構設計的原因,相對於輪子來說,機器狗的四足更加費電。
相比人形機器人,機器狗的應用場景應該會更多。比如,機器狗可以在建築工地幫忙搬磚、鋪地磚等,機器狗還可以進行一些巡查、導盲的工作。如果是動物狗,每一隻導盲犬都要經過長時間的專門訓練,但如果是導盲機器犬,只要成功一次就可以大規模複製。在家庭服務方面,機器狗可以幫忙取東西。在娛樂教育上,機器狗陪伴老人、小孩,做一些簡單的問答,有情感陪伴功能。
不論功能多麼複雜的機器狗,它本質上還是一個機器、一個工具。人類使用工具是爲了延伸自己的能力,替代人去做一些不想做或做不到的事情。以前的一些機器,比如紡織機只能紡織,車牀只能切割,但機器狗更通用一點,能幹好幾種活。
記者:既然機器狗在未來會承擔多種工作,要實現這些功能,技術研發上還面臨哪些挑戰?
劉珂:從運動控制角度看,主要還是讓機器狗能適應複雜地形,能自主判斷、決定應該採取什麼動作。現在好多機器狗已經能翻跟頭,能上、下樓梯,看起來很靈活,但是它的場景切換能力有限,不一定能夠在未知的情況下去適應。所以我們需要提前想好機器狗可能會遇到的情況,預設好需要的動作,然後在仿真環境裡做強化訓練。
感知決策能力超出了訓練的範圍,必須在實際任務中,確保機器狗能將不同的動作銜接起來,還要提高反應速率。比如機器狗感知到50毫秒之後就要摔倒,可是大模型要100毫秒之後才能算出來下一步該如何行動,那就跟不上了。因此要讓機器狗的思考過程和物理世界中的運動速率相匹配。
在電池續航方面,具身智能遇到的問題和電動車類似,即重量重、續航短,仍需要技術突破。
在材料上,其實人體的肌肉、關節裡面有很多柔性的東西,來幫忙減震、緩衝,具身智能的身體也需要這種柔性的材料,如人工肌肉等,還有一些仿生的輕量化的材料,能夠做到又輕又結實。
單從技術上看,目前具身智能行業還沒有達到“涌現”的時刻。
記者:如今,消費級機器狗的價格最低已在萬元以下,很多人買來“嚐鮮”,離機器狗走進千家萬戶還有多遠?
劉珂:消費級機器狗的推廣普及和產量有關,就像汽車行業一樣,當技術達到一定水平後,產量提上去,成本就會下降,生產得越多賣得越便宜,也就越容易被更多人購買使用。不過,影響機器狗產量的還有需求,這個賽道目前有很多嘗試,但仍需要一個明晰的商業模式。現在隨着關注度的增加,研發速度在進一步加快,希望能在不久的將來看到更加智能的機器狗和機器人。
此外,機器人的大量普及可能會引發一系列倫理和社會問題,如隱私保護、就業替代等,同樣值得引起關注。
記者:從國際上看,在具身智能領域,中國的發展水平如何?
劉珂:我們國家處在第一梯隊,和很多國家齊頭並進,因爲這個領域都是開源的,仍處在學術探索階段,還沒有到某一家公司去設置專利壁壘的程度。從硬件角度看,機器人本體方面我們應該是領先的,因爲我國的產業鏈配套很完備,硬件價格較低,成本低對於整個行業的發展肯定是有幫助的。現在我們有很多優秀的學生願意投入具身智能領域,並且留在國內發展,這一定會帶動中國未來人工智能和機器人產業的發展。
(錢一葦參與採寫)