智元发布新一代具身基座大模型 GO-2,让机器人“知行合一”

抖音秀 百科资讯 3

4 月 9 日消息,智元机器人今日发布了新一代具身基座大模型 Genie Operator-2(简称 GO-2)。该模型旨在解决机器人从“理解意图”到“稳定执行”之间的断层,在统一架构中打通逻辑推理与精准动作执行的链路。

据介绍,GO-2 引入“动作思维链”机制,模型不会直接输出控制信号,而是先生成一段高层动作序列作为任务的整体规划,描述行为的方向、结构与执行路径。复杂任务被拆解为有序的动作步骤,再通过异步双系统稳定执行。这一设计使机器人从“边看边做”转变为“想清楚再做”,降低执行偏差,提升行为稳定性。相关成果已被 CVPR 2026 接收。GO-2 在多个机器人基准测试中取得 SOTA 成绩。

附官方详细介绍如下:

当一个机器人站在你面前,你对它说一句:“把杯子拿过来。”它听懂了,也知道杯子是什么、在哪里,甚至已经在“脑海里”规划出一条看似完美的路径。可真正伸手去执行的那一刻,动作却常常偏离规划,无法稳定完成。

为什么会这样?过去很长一段时间里,机器人系统始终被困在一种深层割裂之中:高层语义与推理足够聪明,底层动态运动能力也已日趋成熟,像平衡、跑跳、空翻这类动作早已实现稳定流畅。但一旦进入真实场景、面向复杂任务、需要精准可靠地与物理世界交互时,从“理解意图”到“稳定完成”之间,依然隔着一道看不见的门槛。

机器人可以生成合理规划,却难以在真实扰动中稳定执行;可以“想得明白”,却未必“做得可靠”。这才是具身智能真正走向现实世界、走向实用化最核心的挑战。

今天,智元机器人正式发布新一代具身基座大模型 Genie Operator-2(以下简称 GO-2)。

GO-2 首次在统一架构中打通从逻辑推理到精准动作执行的“最后一公里”,结合数万小时的数据训练,在多个机器人基准测试中刷新行业 SOTA,让机器人从“黑盒摸索”迈向真正的“知行合一”。

01/ GO 系列的关键进化:从感知理解到动作执行

一年前,智元发布了 Genie Operator-1(简称 GO-1)基座模型,通过创新的 ViLLA 架构,首次实现了视觉-语言-动作的统一建模。那是一个里程碑式的突破 ——GO-1 获得了当年 IROS 最佳论文提名,被机器人顶级期刊 TRO 接收,荣获世界人工智能大会 SAIL 之星,并且已经内置到智元的一站式具身开发平台 Genie Studio 中,真正赋能给用户部署模型,在真实场景完成了大规模应用验证。

GO-1 让机器人学会了“理解”。它能看懂指令,能识别场景,能规划任务。

然而,当系统进入更加复杂的真实环境后,一个关键问题逐渐显现:机器人虽然能生成合理的规划,但动作并不总能严格按照规划执行。

想象一下,你让机器人帮你整理厨房。它明明知道要先把碗碟从水池取出,再放进洗碗机,最后启动程序。单看规划,一切完美无缺。可真正执行时,它可能因为微小的视觉偏差抓偏碗沿,或是转身时手臂轨迹偏离预设,最终导致碗碟滑落、任务失败。

这不是规划不够聪明,而是从“规划”到“执行”之间的断裂。其核心,正是机器人系统中长期存在的语义‑运动鸿沟(Semantic‑Actuation Gap)。

在传统具身模型中,链路往往是割裂的:高层语义推理 → 抽象指令 → 控制系统 → 机器人动作。高层模型输出的抽象信号,与真实世界所需的精细动作之间,仍隔着巨大落差。到了执行环节,控制模块常常绕过规划、直接依赖瞬时视觉生成动作,最终导致:长程任务误差不断累积、动作持续偏离规划、系统整体稳定性大幅下降。

而新一代基座模型 GO‑2 要做的,正是弥合这道鸿沟。GO‑2 的目标清晰而坚定:让机器人不只理解世界,更能稳定、可靠地作用于世界。

02/ GO-2 的核心理念:让机器人真正“知行合一”

进一步把问题拆解来看,要让机器人真正做到知行合一,系统需要同时解决两个关键问题:

  • 如何生成“可执行”的动作规划;

  • 如何在真实环境中“稳定执行”该规划。

GO-2 围绕这一问题构建了一套完整架构:先通过动作思维链完成高层动作推理,再通过异步双系统稳定执行。

03 / 首创动作思维链:在动作空间推理规划

在传统方法中,模型通常直接从感知输入生成控制信号。这意味着“思考”和“执行”被压缩在同一个瞬间完成,缺乏明确的中间结构。模型既要理解任务,又要完成精细控制,往往难以兼顾。但人类的行为并不是这样发生的。投篮之前,我们会在脑海中预演出手的轨迹;倒水之前,会先想象水流的路径。动作并不是凭空产生,而是在内部形成一个清晰的过程之后自然展开。

GO-2 将这一过程显式化,引入了动作思维链 (Action Chain-of-Thought)。与其在语言或视觉空间中进行推理,再将结果转换为动作,GO-2 直接在动作空间中完成这一过程。模型不会立即输出控制信号,而是先生成一段高层动作序列,作为任务的整体规划。这一序列描述了行为的方向、结构以及执行路径,是一种可以直接被执行系统理解的中间表示。

通过这种方式,复杂任务被自然拆解为有序的动作步骤。执行过程不再依赖即时反应,而是建立在已经形成的结构化路径之上。机器人从“边看边做”转变为“想清楚再做”,执行偏差随之显著降低,整体行为也更加稳定。这一能力的提出,使得“推理”和“执行”之间不再存在明显断层,规划本身就已经具备了可执行性。这一成果也已被 AI 顶级会议 CVPR 2026 接收,成为具身智能领域的重要进展。

(论文地址:https://arxiv.org/abs/2601.11404)

04 / 异步双系统:让规划被稳定地执行

为了解决执行稳定性问题,GO-2 引入了一种异步双系统架构,将“规划”和“执行”拆分为两个不同节奏的模块,同时保持它们之间的紧密协同。其核心目标并不是简单地提高控制精度,而是确保高层规划在真实环境中能够被持续、稳定地跟随。

在这一架构中,动作思维链自然成为慢系统的一部分。慢系统以较低频率运行,负责生成结构化的高层动作序列。这些动作并不会直接展开为控制信号,而是以逐步细化的方式持续提供指导,从宏观动作到子动作,再到更细粒度的行为片段,形成一个具有层次结构的动作表示。通过这种方式,高层规划不再是一次性的结果,而是一个持续约束执行方向的“意图流”。

与之对应,快系统以更高频率运行。它持续接收来自慢系统的动作规划,并结合当前的视觉观测生成具体控制信号。在这一过程中,执行并不是对规划的简单复现,而是围绕规划进行实时对齐。系统需要不断应对环境变化,因此在跟随的同时持续进行局部修正与动态调整。例如,当桌面高度与预期不一致时,系统会自动调整手臂的下探幅度;当物体摩擦特性发生变化时,会实时调整抓取力度。这种连续修正,使执行始终贴合规划,而不是逐步偏离。

这种稳定跟随能力的关键,在于规划与执行之间的紧密对齐。在训练阶段,GO-2 引入了带噪声的强制教学 (teacher forcing) 机制,在训练执行模块时使用真实的高层动作序列作为条件,同时加入一定扰动,以模拟规划误差。这使得模型能够在“接近正确但不完美”的规划条件下依然保持稳定执行,从而在实际部署中具备更强的鲁棒性。

最终,这种低频规划与高频执行的组合,使机器人既能保持整体行为的一致性,又能够灵活应对局部变化。规划不再停留在“想法”,而是能够在动态环境中被持续兑现,从而真正实现按规划行事的能力。这一成果,也已被 AI 顶级会议 ACL 2026 接收。

(论文地址:https://libra-vla.github.io/)

05 / 性能表现:刷新行业 SOTA

当“思考”与“执行”真正被打通,带来的改变,并不仅仅是指标上的提升,而是系统行为方式的跃迁。在新的架构设计下,GO-2 在多个主流具身智能基准测试(benchmark)中取得了 全面 SOTA(现有最佳技术),在任务成功率、环境鲁棒性以及跨场景泛化能力上均显著领先当前主流模型 (如:π0.5、NVIDIA GR00T)。

  • LIBERO Benchmark:GO-2 模型在 Spatial、Object、Goal 与 Long 四类任务上均排名第一,平均成功率达到 98.5%

  • LIBERO-Plus Benchmark:在包含相机、光照、背景和噪声等多种环境扰动的设置下,GO-2 零样本测试取得 86.6% 平均成功率,显著超过现有方法,表现出了超强的泛化能力。

  • VLABench Benchmark:在跨类别与纹理泛化测试中,GO-2 平均达到 47.4,特别是纹理泛化任务上显著优于其他方法。

  • Genie Sim 3.0 Benchmark (Sim-to-Real):在面向真实世界迁移的  Genie Sim 3.0 评测中,GO-2 展示了良好的零样本跨域迁移能力,在仅使用仿真数据训练的前提下,在真实环境测试中取得了 82.9% 的平均成功率,显著优于 π0.5 (77.5%)。

06 / 规模化落地:从模型能力到真实世界部署

GO-2 的价值,并不止于模型本身。

在 GO-2 的基础上,智元进一步打通模型能力与真实场景部署之间的闭环。通过“基座模型 + 分布式强化学习”的协同范式,让机器人在真实环境中持续学习、持续进化。

依托 Genie Studio 开发平台,系统构建了面向真实世界的闭环学习能力:通过云端与多机器人协同,不断采集交互数据并进行在线后训练,使模型在真实环境中持续优化,而非依赖离线数据或仿真。每一次执行,都是一次数据积累;每一次反馈,都是一次能力提升。

通过这一“预训练 + 后训练 + 数据闭环”的体系,GO-2 不再是静态模型,而是能够在真实世界中持续学习、不断进化的生产力系统。

结语

具身智能的终极追求,是知行合一。

从 GO‑1 到 GO‑2,智元完成了一次从能力到价值的关键跃迁:从“理解世界”,走向真正作用于世界;从“偶尔成功”,走向持续稳定完成;从“单纯完成动作”,走向在物理世界中精准交互、稳定落地。

GO‑2 基座模型所做的,正是为具身智能打造真正会思考、可信赖、能落地的通用大脑,打破语义与动作的割裂,让规划与执行真正合一,让机器人的每一个动作,都能适配物理世界的复杂变量、稳定作用于真实场景。

它体现在精准的推理与规划中,体现在稳定可靠的执行里,更体现在从虚拟仿真到真实世界、从实验室验证研发态到产业落地部署态的实践中 —— 这份实践,从来不是单纯的动作运动,而是机器人与物理世界精准、可靠、可复用的交互。

我们希望,它不仅是一个模型,更是一个让机器人从“理解世界”,走向 “真正作用于世界”的里程碑。