☰

從陪伴兒童到守護老人，機器人將溫情“落地”

來源：環球網

兒童節前期，銀河通用正式推出自主研發的產品級端到端導航大模型——TrackVLA，一款具備純視覺環境感知、語言指令驅動、可自主推理、具備零樣本（Zero-Shot）泛化能力的具身大模型。

TrackVLA 是銀河通用推出的產品級導航大模型，純視覺環境感知、自然語言指令驅動、端到端輸出語言和機器人動作，是一個由仿真合成動作數據訓練的“視覺-語言-動作”（Vision-Language-Action, VLA）大模型。它讓機器人擁有“聽→看→懂→走”的閉環運動能力：一雙眼睛看世界、一個智能“大腦”做推理，無需提前建圖、不依賴遙操控制，真正實現語言驅動、泛化感知、自主推理、智能交互與運動。

TrackVLA 到底能做什麼？八大核心能力，一起看懂！

1. 聽得懂你說話，還能換人跟

你只需說一句：“跟着媽媽”，它就能立即識別“媽媽”對應的目標位置。如果改口說“換成跟孩子”，它也能瞬間切換對象，並通過語音回覆確認。甚至，Ta還能跟蹤你的寵物。這背後，是模型具備的自然語言理解與目標識別能力的協同工作。

2. 不怕人多也不跟錯人

在人流密集的購物中心中，面對複雜的場景、多變的環境中多個相似穿着的人，它能準確識別原始目標並長時自主跟隨。通過空間理解和視覺記憶機制，避免“認錯人”。

3. 丟了目標能找回來

如果目標走出視野，它不會原地“發呆”，而是通過實時的空間智能和大模型推理能力根據目標運動軌跡“分析出”目標的大致位置，並規劃軌跡重新找回目標。

4. 從沒見過的地方也能走

TrackVLA不依賴建圖，靠純視覺輸入理解環境。可在不依賴額外採集訓練數據的情況下，直接部署在陌生商場、電梯、遊樂區等環境，實現長時穩定自主跟隨。

5. 靈活避障，適應複雜場景

在兒童遊樂區、狹窄通道等複雜場景中，它能實時識別障礙物（包括兒童、玩具、地面水漬等），分析可通行區域，並可正確認知自身本體能力，自主推理出自身構型支持的合理路線。

6. 環境光線變化？不怕

從室外陽光到室內昏暗、從電梯鏡面反射到超市貨架夾縫，TrackVLA展現出極強魯棒性，無需專門調參或切換模式。

7. 遠程可視守護，一目瞭然

通過 App，你可以實時看到機器人眼中的第一視角，掌握家人動態。系統還能主動提醒風險行爲（如小朋友奔跑、老人跌倒），提供“移動守護”。

8. 技能涌現！

TrackVLA不僅能穩定跟隨人類，還可以泛化至任意移動目標。比如視頻最後展示了讓機器狗跟隨一隻路上偶遇的動物狗狗，其目標形態、運動方式、遮擋情況都非常不確定。 TrackVLA 也表現了同樣穩定的跟隨能力，而這一能力是訓練時從而教過的！

TrackVLA的發佈，是銀河通用具身大模型發展戰略的重要里程碑，標誌着多項關鍵突破的同步實現並已達到產品級能力。機器人導航正式邁入端到端模型可商業化落地的階段，TrackVLA無需建圖、不依賴遙控、自主推理、智能交互。從陪伴兒童到守護老人，從商場巡邏到室內物流，機器人在泛服務場景中的應用路徑已經被銀河通用帶到公衆面前。具身智能真正具備了“看得懂、想得明白、動得起來”的一體化能力。

未來，TrackVLA 將賦能不同形態的機器人本體，加速具身智能整個行業在不同維度的產品落地，打造更加繁榮的產業生態，提供多樣的社會服務並創造更多樣的社會價值。

從陪伴兒童到守護老人，機器人將溫情“落地”

相關資訊