智元发布新一代具身基座大模型 GO-2，让机器人“知行合一”

抖音秀百科资讯 2026-04-09 21:23:46 3

4 月 9 日消息，智元机器人今日发布了新一代具身基座大模型 Genie Operator-2（简称 GO-2）。该模型旨在解决机器人从“理解意图”到“稳定执行”之间的断层，在统一架构中打通逻辑推理与精准动作执行的链路。

据介绍，GO-2 引入“动作思维链”机制，模型不会直接输出控制信号，而是先生成一段高层动作序列作为任务的整体规划，描述行为的方向、结构与执行路径。复杂任务被拆解为有序的动作步骤，再通过异步双系统稳定执行。这一设计使机器人从“边看边做”转变为“想清楚再做”，降低执行偏差，提升行为稳定性。相关成果已被 CVPR 2026 接收。GO-2 在多个机器人基准测试中取得 SOTA 成绩。

附官方详细介绍如下：

当一个机器人站在你面前，你对它说一句：“把杯子拿过来。”它听懂了，也知道杯子是什么、在哪里，甚至已经在“脑海里”规划出一条看似完美的路径。可真正伸手去执行的那一刻，动作却常常偏离规划，无法稳定完成。
为什么会这样？过去很长一段时间里，机器人系统始终被困在一种深层割裂之中：高层语义与推理足够聪明，底层动态运动能力也已日趋成熟，像平衡、跑跳、空翻这类动作早已实现稳定流畅。但一旦进入真实场景、面向复杂任务、需要精准可靠地与物理世界交互时，从“理解意图”到“稳定完成”之间，依然隔着一道看不见的门槛。
机器人可以生成合理规划，却难以在真实扰动中稳定执行；可以“想得明白”，却未必“做得可靠”。这才是具身智能真正走向现实世界、走向实用化最核心的挑战。
今天，智元机器人正式发布新一代具身基座大模型 Genie Operator-2（以下简称 GO-2）。
GO-2 首次在统一架构中打通从逻辑推理到精准动作执行的“最后一公里”，结合数万小时的数据训练，在多个机器人基准测试中刷新行业 SOTA，让机器人从“黑盒摸索”迈向真正的“知行合一”。
01/ GO 系列的关键进化：从感知理解到动作执行
一年前，智元发布了 Genie Operator-1（简称 GO-1）基座模型，通过创新的 ViLLA 架构，首次实现了视觉-语言-动作的统一建模。那是一个里程碑式的突破 ——GO-1 获得了当年 IROS 最佳论文提名，被机器人顶级期刊 TRO 接收，荣获世界人工智能大会 SAIL 之星，并且已经内置到智元的一站式具身开发平台 Genie Studio 中，真正赋能给用户部署模型，在真实场景完成了大规模应用验证。
GO-1 让机器人学会了“理解”。它能看懂指令，能识别场景，能规划任务。
然而，当系统进入更加复杂的真实环境后，一个关键问题逐渐显现：机器人虽然能生成合理的规划，但动作并不总能严格按照规划执行。
想象一下，你让机器人帮你整理厨房。它明明知道要先把碗碟从水池取出，再放进洗碗机，最后启动程序。单看规划，一切完美无缺。可真正执行时，它可能因为微小的视觉偏差抓偏碗沿，或是转身时手臂轨迹偏离预设，最终导致碗碟滑落、任务失败。
这不是规划不够聪明，而是从“规划”到“执行”之间的断裂。其核心，正是机器人系统中长期存在的语义‑运动鸿沟（Semantic‑Actuation Gap）。
在传统具身模型中，链路往往是割裂的：高层语义推理 → 抽象指令 → 控制系统 → 机器人动作。高层模型输出的抽象信号，与真实世界所需的精细动作之间，仍隔着巨大落差。到了执行环节，控制模块常常绕过规划、直接依赖瞬时视觉生成动作，最终导致：长程任务误差不断累积、动作持续偏离规划、系统整体稳定性大幅下降。
而新一代基座模型 GO‑2 要做的，正是弥合这道鸿沟。GO‑2 的目标清晰而坚定：让机器人不只理解世界，更能稳定、可靠地作用于世界。
02/ GO-2 的核心理念：让机器人真正“知行合一”
进一步把问题拆解来看，要让机器人真正做到知行合一，系统需要同时解决两个关键问题：
如何生成“可执行”的动作规划；
如何在真实环境中“稳定执行”该规划。
GO-2 围绕这一问题构建了一套完整架构：先通过动作思维链完成高层动作推理，再通过异步双系统稳定执行。
03 / 首创动作思维链：在动作空间推理规划
在传统方法中，模型通常直接从感知输入生成控制信号。这意味着“思考”和“执行”被压缩在同一个瞬间完成，缺乏明确的中间结构。模型既要理解任务，又要完成精细控制，往往难以兼顾。但人类的行为并不是这样发生的。投篮之前，我们会在脑海中预演出手的轨迹；倒水之前，会先想象水流的路径。动作并不是凭空产生，而是在内部形成一个清晰的过程之后自然展开。
GO-2 将这一过程显式化，引入了动作思维链 (Action Chain-of-Thought)。与其在语言或视觉空间中进行推理，再将结果转换为动作，GO-2 直接在动作空间中完成这一过程。模型不会立即输出控制信号，而是先生成一段高层动作序列，作为任务的整体规划。这一序列描述了行为的方向、结构以及执行路径，是一种可以直接被执行系统理解的中间表示。
通过这种方式，复杂任务被自然拆解为有序的动作步骤。执行过程不再依赖即时反应，而是建立在已经形成的结构化路径之上。机器人从“边看边做”转变为“想清楚再做”，执行偏差随之显著降低，整体行为也更加稳定。这一能力的提出，使得“推理”和“执行”之间不再存在明显断层，规划本身就已经具备了可执行性。这一成果也已被 AI 顶级会议 CVPR 2026 接收，成为具身智能领域的重要进展。
（论文地址：https://arxiv.org/abs/2601.11404）
04 / 异步双系统：让规划被稳定地执行
为了解决执行稳定性问题，GO-2 引入了一种异步双系统架构，将“规划”和“执行”拆分为两个不同节奏的模块，同时保持它们之间的紧密协同。其核心目标并不是简单地提高控制精度，而是确保高层规划在真实环境中能够被持续、稳定地跟随。
在这一架构中，动作思维链自然成为慢系统的一部分。慢系统以较低频率运行，负责生成结构化的高层动作序列。这些动作并不会直接展开为控制信号，而是以逐步细化的方式持续提供指导，从宏观动作到子动作，再到更细粒度的行为片段，形成一个具有层次结构的动作表示。通过这种方式，高层规划不再是一次性的结果，而是一个持续约束执行方向的“意图流”。
与之对应，快系统以更高频率运行。它持续接收来自慢系统的动作规划，并结合当前的视觉观测生成具体控制信号。在这一过程中，执行并不是对规划的简单复现，而是围绕规划进行实时对齐。系统需要不断应对环境变化，因此在跟随的同时持续进行局部修正与动态调整。例如，当桌面高度与预期不一致时，系统会自动调整手臂的下探幅度；当物体摩擦特性发生变化时，会实时调整抓取力度。这种连续修正，使执行始终贴合规划，而不是逐步偏离。
这种稳定跟随能力的关键，在于规划与执行之间的紧密对齐。在训练阶段，GO-2 引入了带噪声的强制教学 (teacher forcing) 机制，在训练执行模块时使用真实的高层动作序列作为条件，同时加入一定扰动，以模拟规划误差。这使得模型能够在“接近正确但不完美”的规划条件下依然保持稳定执行，从而在实际部署中具备更强的鲁棒性。
最终，这种低频规划与高频执行的组合，使机器人既能保持整体行为的一致性，又能够灵活应对局部变化。规划不再停留在“想法”，而是能够在动态环境中被持续兑现，从而真正实现按规划行事的能力。这一成果，也已被 AI 顶级会议 ACL 2026 接收。
（论文地址：https://libra-vla.github.io/）
05 / 性能表现：刷新行业 SOTA
当“思考”与“执行”真正被打通，带来的改变，并不仅仅是指标上的提升，而是系统行为方式的跃迁。在新的架构设计下，GO-2 在多个主流具身智能基准测试（benchmark）中取得了全面 SOTA（现有最佳技术），在任务成功率、环境鲁棒性以及跨场景泛化能力上均显著领先当前主流模型 (如：π0.5、NVIDIA GR00T)。
LIBERO Benchmark：GO-2 模型在 Spatial、Object、Goal 与 Long 四类任务上均排名第一，平均成功率达到 98.5%
LIBERO-Plus Benchmark：在包含相机、光照、背景和噪声等多种环境扰动的设置下，GO-2 零样本测试取得 86.6% 平均成功率，显著超过现有方法，表现出了超强的泛化能力。
VLABench Benchmark：在跨类别与纹理泛化测试中，GO-2 平均达到 47.4，特别是纹理泛化任务上显著优于其他方法。
Genie Sim 3.0 Benchmark (Sim-to-Real)：在面向真实世界迁移的 Genie Sim 3.0 评测中，GO-2 展示了良好的零样本跨域迁移能力，在仅使用仿真数据训练的前提下，在真实环境测试中取得了 82.9% 的平均成功率，显著优于 π0.5 （77.5%）。
06 / 规模化落地：从模型能力到真实世界部署
GO-2 的价值，并不止于模型本身。
在 GO-2 的基础上，智元进一步打通模型能力与真实场景部署之间的闭环。通过“基座模型 + 分布式强化学习”的协同范式，让机器人在真实环境中持续学习、持续进化。
依托 Genie Studio 开发平台，系统构建了面向真实世界的闭环学习能力：通过云端与多机器人协同，不断采集交互数据并进行在线后训练，使模型在真实环境中持续优化，而非依赖离线数据或仿真。每一次执行，都是一次数据积累；每一次反馈，都是一次能力提升。
通过这一“预训练 + 后训练 + 数据闭环”的体系，GO-2 不再是静态模型，而是能够在真实世界中持续学习、不断进化的生产力系统。
结语
具身智能的终极追求，是知行合一。
从 GO‑1 到 GO‑2，智元完成了一次从能力到价值的关键跃迁：从“理解世界”，走向真正作用于世界；从“偶尔成功”，走向持续稳定完成；从“单纯完成动作”，走向在物理世界中精准交互、稳定落地。
GO‑2 基座模型所做的，正是为具身智能打造真正会思考、可信赖、能落地的通用大脑，打破语义与动作的割裂，让规划与执行真正合一，让机器人的每一个动作，都能适配物理世界的复杂变量、稳定作用于真实场景。
它体现在精准的推理与规划中，体现在稳定可靠的执行里，更体现在从虚拟仿真到真实世界、从实验室验证研发态到产业落地部署态的实践中 —— 这份实践，从来不是单纯的动作运动，而是机器人与物理世界精准、可靠、可复用的交互。
我们希望，它不仅是一个模型，更是一个让机器人从“理解世界”，走向 “真正作用于世界”的里程碑。

本文地址： http://www.douyinshow.com/22463.html

文章来源：抖音秀