北大×北京人形联合突破:Demo-JEPA实现跨体意图迁移与零样本泛化
近日,北京大学与北京人形机器人创新中心联合发布了Demo-JEPA研究成果。研究团队在RLBench仿真和真实机械臂上完成了一项实验:一台Franka机械臂通过观看UR5e或Sawyer的演示视频就能完成从未见过的任务。
alt="Image">这背后,是跨体模仿(cross-embodimentimitation)这个老问题的新解法。
PART 01
动作层对齐的死胡同
让机器人学习另一个机器人的技能,听起来简单,实际上困难重重。
当前主流方法都在做动作层面的对齐。Vision-Language-Action模型通过大规模多体数据联合训练,试图让模型隐式学会不同机器人之间的控制规律。另一些方法构建共享动作空间,或者设计启发式的动作重定向规则。
但这些方法面临一个根本性矛盾:相同的语义行为,在不同机器人上对应的电机指令、扭矩曲线、关节配置可能完全不同。一个7自由度机械臂抓取杯子的动作序列,无法直接迁移到6自由度机械臂上。
数据需求也是个问题。要让模型学会跨体对齐,研究者需要大量标注了动作对应关系的多体数据。这在实际场景中成本高昂,且难以覆盖所有可能的体型组合。
PART 02
换个问法:不学动作,学目标
Demo-JEPA的核心想法是:不要问"这个动作怎么复现",而是问"这个演示想达到什么状态"。
alt="Image">团队把跨体模仿重新定义为潜在目标规划问题。给定一段源机器人的演示视频,系统推断出目标机器人兼容的未来潜在状态,作为子目标。目标机器人再根据自己的动力学模型,规划出达到这些子目标的动作序列。
这个思路的关键在于表示空间的选择。Demo-JEPA使用JEPA(JointEmbeddingPredictiveArchitecture)的潜在空间,而不是像素空间或动作空间。
JEPA的优势在于它学习的是预测性的世界结构,而不是重建像素细节。传统的像素级生成模型或自编码器,会把大量表示能力分配给背景纹理、光照、机器人外观等任务无关的细节。JEPA潜在空间则专注于捕捉抽象的、可预测的动态结构,天然适合跨体迁移。
PART 03
三个模块,各司其职
DreamerPredictor:体型感知的目标推断器。这是Demo-JEPA的核心模块。它接收三个输入:目标机器人当前观测、源演示的当前帧、源演示的未来帧。系统通过两层交叉注意力机制,分别提取体型信息和运动信息,再用3D卷积融合时空特征,最终输出目标机器人兼容的未来潜在状态。
alt="Image">为什么用3D卷积而不是简单的平均池化?消融实验显示,对于简单任务(如投篮),平均池化够用。但对于需要结构化、非平凡运动的任务(如旋转、铰接式闭合),3D卷积的显式时空建模能力至关重要。在真实世界的噪声环境和更大的体型差异下,这个优势更加明显。
WorldModel:基于V-JEPA2.1的动力学预测。系统使用预训练的V-JEPA2.1作为世界模型,学习动作条件下的潜在动力学。给定当前潜在状态、机器人状态和动作序列,世界模型递归预测未来的潜在状态。
CEMPlanner:迭代优化的动作生成。有了目标潜在状态和世界模型,系统通过交叉熵方法(CEM)在潜在空间中优化动作序列。CEM是一种采样优化算法:每轮迭代采样多个候选动作序列,用世界模型前向推演,选出最接近目标的精英序列,更新采样分布,重复多轮后得到最优动作。
虽然CEM引入了额外计算成本,但它避免了直接将高层表示投影到动作空间。系统通过潜在动力学在线优化,在环境和体型变化时提供更强的适应性。
alt="Image">两阶段训练解耦了目标推断和动作执行。第一阶段,研究者使用配对的视觉轨迹数据训练DreamerPredictor。对于每个目标轨迹片段,系统随机采样一个源轨迹片段,其中加入小范围时间扰动。这种扰动机制让模型学会处理时间对齐的不确定性。
第二阶段,研究者冻结DreamerPredictor,微调世界模型。系统使用DreamerPredictor生成的目标潜在状态作为监督信号,让世界模型学习如何通过动作序列达到这些目标。DreamerPredictor专注于跨体语义对齐,世界模型专注于体型特定的动力学。
推理时,系统引入自适应目标更新机制。系统执行规划动作后,计算新观测的潜在状态与预期目标之间的差异。只有当差异小于阈值时,系统才推进到下一个源参考帧。否则,系统保持当前目标不变,继续优化动作直到达成。这个机制有效稳定了长时域任务,防止过早的时间推进。
PART 04
分布偏移越大,优势越明显
实验从三个维度验证系统性能。
行为基础:源和目标使用相同体型,测试系统在域内的基础能力。VPP(VideoPredictionPolicy)在这个维度表现最好,说明它在熟悉分布下的轨迹学习能力强。
alt="Image">仿真环境评估结果
alt="Image">真实环境评估结果
跨体桥接:源和目标使用不同体型,但任务在训练集中见过。Demo-JEPA在仿真中达到0.45的平均成功率,比VPP和XSkill分别高0.17和0.28。在真实世界中达到0.55,显著优于基线。
alt="Image">仿真环境下的目标参考对比与架构消融实验
alt="Image">真实环境下的目标参考对比与架构消融实验
零样本泛化:源和目标使用不同体型,且任务从未见过。Demo-JEPA在仿真中达到0.36,VPP和XSkill仅为0.04和0.03。在真实世界中达到0.25,而基线几乎完全失败。
分布偏移越大,Demo-JEPA的优势越明显。这验证了核心假设:将跨体演示解释为潜在目标,比将其视为固定动作序列或技能原型更有效。
实验对比了三种目标参考:naive(直接使用源演示的未来潜在状态)、oracle(使用目标体型的真实未来轨迹,部署时不可用)、Demo-JEPA。Naive方法在所有任务上完全失败,说明V-JEPA2.1的潜在表示本身不具备跨体兼容性。Demo-JEPA接近oracle的性能,证明DreamerPredictor成功地将异构演示转换为目标兼容的潜在目标。
PART 05
任务多样性比数据量更重要
缩放研究显示,当研究者将任务类别减少到20%时,跨体桥接和零样本泛化的成功率分别降至0.18和0.18。当研究者将每个任务的轨迹数减少到20%时,成功率为0.27和0.27。
在50%规模下,同样的趋势持续。这表明,接触多样化的任务语义是可迁移源到目标潜在映射的主要驱动力。增加任务内轨迹进一步提升预测器的鲁棒性。
研究者将DreamerPredictor的输出用于条件化扩散策略(Demo-DP)。在行为基础维度,Demo-DP表现优于原始Demo-JEPA,因为扩散策略在熟悉条件下是强局部动作专家。但在零样本泛化维度,Demo-JEPA显著优于Demo-DP。这突显了一个事实:虽然扩散策略在域内强大,但基于规划器的执行在未见任务的严重分布偏移下仍然更加鲁棒。
PART 06
一个方法论的转变
Demo-JEPA的价值不仅在于具体的技术实现,更在于它代表的思路转变:从动作空间的对齐,转向语义意图的对齐。
在机器人走向真实世界的过程中,纯粹的"模型规模"和"数据量"已经触及物理天花板。跨体模仿需要的不是更大的模型,而是更好的抽象。
团队将演示视为隐式的时间目标规范,而不是电机指令序列。这个看似简单的重新定义,打开了一条新路径。
当前的局限在于动作条件世界模型的建模瓶颈,系统在复杂、高精度任务上效果有限。此外,训练流程仍然需要时间或进度感知的对齐。未来工作将聚焦于提升世界模型的保真度,以及开发完全无对齐的学习策略。
论文地址:https://arxiv.org/pdf/2605.20811
项目地址:https://log2r.github.io/Demo-JEPA/





