近日,北京大学与北京人形机器人创新中心联合发布了Demo-JEPA研究成果。研究团队在RLBench仿真和真实机械臂上完成了一项实验:一台Franka机械臂通过观看UR5e或Sawyer的演示视频就能完成从未见过的任务。

北大×北京人形联合突破:Demo-JEPA实现跨体意图迁移与零样本泛化(图1) alt="Image">

这背后,是跨体模仿(cross-embodimentimitation)这个老问题的新解法。

PART 01

动作层对齐的死胡同

让机器人学习另一个机器人的技能,听起来简单,实际上困难重重。

当前主流方法都在做动作层面的对齐。Vision-Language-Action模型通过大规模多体数据联合训练,试图让模型隐式学会不同机器人之间的控制规律。另一些方法构建共享动作空间,或者设计启发式的动作重定向规则。

但这些方法面临一个根本性矛盾:相同的语义行为,在不同机器人上对应的电机指令、扭矩曲线、关节配置可能完全不同。一个7自由度机械臂抓取杯子的动作序列,无法直接迁移到6自由度机械臂上。

数据需求也是个问题。要让模型学会跨体对齐,研究者需要大量标注了动作对应关系的多体数据。这在实际场景中成本高昂,且难以覆盖所有可能的体型组合。

PART 02

换个问法:不学动作,学目标

Demo-JEPA的核心想法是:不要问"这个动作怎么复现",而是问"这个演示想达到什么状态"。

北大×北京人形联合突破:Demo-JEPA实现跨体意图迁移与零样本泛化(图2) alt="Image">

团队把跨体模仿重新定义为潜在目标规划问题。给定一段源机器人的演示视频,系统推断出目标机器人兼容的未来潜在状态,作为子目标。目标机器人再根据自己的动力学模型,规划出达到这些子目标的动作序列。

这个思路的关键在于表示空间的选择。Demo-JEPA使用JEPA(JointEmbeddingPredictiveArchitecture)的潜在空间,而不是像素空间或动作空间。

JEPA的优势在于它学习的是预测性的世界结构,而不是重建像素细节。传统的像素级生成模型或自编码器,会把大量表示能力分配给背景纹理、光照、机器人外观等任务无关的细节。JEPA潜在空间则专注于捕捉抽象的、可预测的动态结构,天然适合跨体迁移。

PART 03

三个模块,各司其职

DreamerPredictor:体型感知的目标推断器。这是Demo-JEPA的核心模块。它接收三个输入:目标机器人当前观测、源演示的当前帧、源演示的未来帧。系统通过两层交叉注意力机制,分别提取体型信息和运动信息,再用3D卷积融合时空特征,最终输出目标机器人兼容的未来潜在状态。

北大×北京人形联合突破:Demo-JEPA实现跨体意图迁移与零样本泛化(图3) alt="Image">

为什么用3D卷积而不是简单的平均池化?消融实验显示,对于简单任务(如投篮),平均池化够用。但对于需要结构化、非平凡运动的任务(如旋转、铰接式闭合),3D卷积的显式时空建模能力至关重要。在真实世界的噪声环境和更大的体型差异下,这个优势更加明显。

WorldModel:基于V-JEPA2.1的动力学预测。系统使用预训练的V-JEPA2.1作为世界模型,学习动作条件下的潜在动力学。给定当前潜在状态、机器人状态和动作序列,世界模型递归预测未来的潜在状态。

CEMPlanner:迭代优化的动作生成。有了目标潜在状态和世界模型,系统通过交叉熵方法(CEM)在潜在空间中优化动作序列。CEM是一种采样优化算法:每轮迭代采样多个候选动作序列,用世界模型前向推演,选出最接近目标的精英序列,更新采样分布,重复多轮后得到最优动作。

虽然CEM引入了额外计算成本,但它避免了直接将高层表示投影到动作空间。系统通过潜在动力学在线优化,在环境和体型变化时提供更强的适应性。

北大×北京人形联合突破:Demo-JEPA实现跨体意图迁移与零样本泛化(图4) alt="Image">

两阶段训练解耦了目标推断和动作执行。第一阶段,研究者使用配对的视觉轨迹数据训练DreamerPredictor。对于每个目标轨迹片段,系统随机采样一个源轨迹片段,其中加入小范围时间扰动。这种扰动机制让模型学会处理时间对齐的不确定性。

第二阶段,研究者冻结DreamerPredictor,微调世界模型。系统使用DreamerPredictor生成的目标潜在状态作为监督信号,让世界模型学习如何通过动作序列达到这些目标。DreamerPredictor专注于跨体语义对齐,世界模型专注于体型特定的动力学。

推理时,系统引入自适应目标更新机制。系统执行规划动作后,计算新观测的潜在状态与预期目标之间的差异。只有当差异小于阈值时,系统才推进到下一个源参考帧。否则,系统保持当前目标不变,继续优化动作直到达成。这个机制有效稳定了长时域任务,防止过早的时间推进。

PART 04

分布偏移越大,优势越明显

实验从三个维度验证系统性能。

行为基础:源和目标使用相同体型,测试系统在域内的基础能力。VPP(VideoPredictionPolicy)在这个维度表现最好,说明它在熟悉分布下的轨迹学习能力强。

北大×北京人形联合突破:Demo-JEPA实现跨体意图迁移与零样本泛化(图5) alt="Image">

仿真环境评估结果

北大×北京人形联合突破:Demo-JEPA实现跨体意图迁移与零样本泛化(图6) alt="Image">

真实环境评估结果

跨体桥接:源和目标使用不同体型,但任务在训练集中见过。Demo-JEPA在仿真中达到0.45的平均成功率,比VPP和XSkill分别高0.17和0.28。在真实世界中达到0.55,显著优于基线。

北大×北京人形联合突破:Demo-JEPA实现跨体意图迁移与零样本泛化(图7) alt="Image">

仿真环境下的目标参考对比与架构消融实验

北大×北京人形联合突破:Demo-JEPA实现跨体意图迁移与零样本泛化(图8) alt="Image">

真实环境下的目标参考对比与架构消融实验

零样本泛化:源和目标使用不同体型,且任务从未见过。Demo-JEPA在仿真中达到0.36,VPP和XSkill仅为0.04和0.03。在真实世界中达到0.25,而基线几乎完全失败。

分布偏移越大,Demo-JEPA的优势越明显。这验证了核心假设:将跨体演示解释为潜在目标,比将其视为固定动作序列或技能原型更有效。

实验对比了三种目标参考:naive(直接使用源演示的未来潜在状态)、oracle(使用目标体型的真实未来轨迹,部署时不可用)、Demo-JEPA。Naive方法在所有任务上完全失败,说明V-JEPA2.1的潜在表示本身不具备跨体兼容性。Demo-JEPA接近oracle的性能,证明DreamerPredictor成功地将异构演示转换为目标兼容的潜在目标。

PART 05

任务多样性比数据量更重要

缩放研究显示,当研究者将任务类别减少到20%时,跨体桥接和零样本泛化的成功率分别降至0.18和0.18。当研究者将每个任务的轨迹数减少到20%时,成功率为0.27和0.27。

在50%规模下,同样的趋势持续。这表明,接触多样化的任务语义是可迁移源到目标潜在映射的主要驱动力。增加任务内轨迹进一步提升预测器的鲁棒性。

研究者将DreamerPredictor的输出用于条件化扩散策略(Demo-DP)。在行为基础维度,Demo-DP表现优于原始Demo-JEPA,因为扩散策略在熟悉条件下是强局部动作专家。但在零样本泛化维度,Demo-JEPA显著优于Demo-DP。这突显了一个事实:虽然扩散策略在域内强大,但基于规划器的执行在未见任务的严重分布偏移下仍然更加鲁棒。

PART 06

一个方法论的转变

Demo-JEPA的价值不仅在于具体的技术实现,更在于它代表的思路转变:从动作空间的对齐,转向语义意图的对齐。

在机器人走向真实世界的过程中,纯粹的"模型规模"和"数据量"已经触及物理天花板。跨体模仿需要的不是更大的模型,而是更好的抽象。

团队将演示视为隐式的时间目标规范,而不是电机指令序列。这个看似简单的重新定义,打开了一条新路径。

当前的局限在于动作条件世界模型的建模瓶颈,系统在复杂、高精度任务上效果有限。此外,训练流程仍然需要时间或进度感知的对齐。未来工作将聚焦于提升世界模型的保真度,以及开发完全无对齐的学习策略。

论文地址:https://arxiv.org/pdf/2605.20811

项目地址:https://log2r.github.io/Demo-JEPA/