北大×北京人形联合突破：Demo-JEPA实现跨体意图迁移与零样本泛化

作者：发布时间：2026-05-28 点击数：

AI摘要

近日，北京大学与北京人形机器人创新中心联合发布了Demo-JEPA研究成果。研究团队在RLBench仿真和真实机械臂上完成了一项实验：一台Franka机械臂通过

摘要由作者通过智能技术生成

近日，北京大学与北京人形机器人创新中心联合发布了Demo-JEPA研究成果。研究团队在RLBench仿真和真实机械臂上完成了一项实验：一台Franka机械臂通过观看UR5e或Sawyer的演示视频就能完成从未见过的任务。

alt="Image">

这背后，是跨体模仿（cross-embodimentimitation）这个老问题的新解法。

PART 01

动作层对齐的死胡同

让机器人学习另一个机器人的技能，听起来简单，实际上困难重重。

当前主流方法都在做动作层面的对齐。Vision-Language-Action模型通过大规模多体数据联合训练，试图让模型隐式学会不同机器人之间的控制规律。另一些方法构建共享动作空间，或者设计启发式的动作重定向规则。

但这些方法面临一个根本性矛盾：相同的语义行为，在不同机器人上对应的电机指令、扭矩曲线、关节配置可能完全不同。一个7自由度机械臂抓取杯子的动作序列，无法直接迁移到6自由度机械臂上。

数据需求也是个问题。要让模型学会跨体对齐，研究者需要大量标注了动作对应关系的多体数据。这在实际场景中成本高昂，且难以覆盖所有可能的体型组合。

PART 02

换个问法：不学动作，学目标

Demo-JEPA的核心想法是：不要问"这个动作怎么复现"，而是问"这个演示想达到什么状态"。

alt="Image">

团队把跨体模仿重新定义为潜在目标规划问题。给定一段源机器人的演示视频，系统推断出目标机器人兼容的未来潜在状态，作为子目标。目标机器人再根据自己的动力学模型，规划出达到这些子目标的动作序列。

这个思路的关键在于表示空间的选择。Demo-JEPA使用JEPA（JointEmbeddingPredictiveArchitecture）的潜在空间，而不是像素空间或动作空间。

JEPA的优势在于它学习的是预测性的世界结构，而不是重建像素细节。传统的像素级生成模型或自编码器，会把大量表示能力分配给背景纹理、光照、机器人外观等任务无关的细节。JEPA潜在空间则专注于捕捉抽象的、可预测的动态结构，天然适合跨体迁移。

PART 03

三个模块，各司其职

DreamerPredictor：体型感知的目标推断器。这是Demo-JEPA的核心模块。它接收三个输入：目标机器人当前观测、源演示的当前帧、源演示的未来帧。系统通过两层交叉注意力机制，分别提取体型信息和运动信息，再用3D卷积融合时空特征，最终输出目标机器人兼容的未来潜在状态。

alt="Image">

为什么用3D卷积而不是简单的平均池化？消融实验显示，对于简单任务（如投篮），平均池化够用。但对于需要结构化、非平凡运动的任务（如旋转、铰接式闭合），3D卷积的显式时空建模能力至关重要。在真实世界的噪声环境和更大的体型差异下，这个优势更加明显。

WorldModel：基于V-JEPA2.1的动力学预测。系统使用预训练的V-JEPA2.1作为世界模型，学习动作条件下的潜在动力学。给定当前潜在状态、机器人状态和动作序列，世界模型递归预测未来的潜在状态。

CEMPlanner：迭代优化的动作生成。有了目标潜在状态和世界模型，系统通过交叉熵方法（CEM）在潜在空间中优化动作序列。CEM是一种采样优化算法：每轮迭代采样多个候选动作序列，用世界模型前向推演，选出最接近目标的精英序列，更新采样分布，重复多轮后得到最优动作。

虽然CEM引入了额外计算成本，但它避免了直接将高层表示投影到动作空间。系统通过潜在动力学在线优化，在环境和体型变化时提供更强的适应性。

alt="Image">

两阶段训练解耦了目标推断和动作执行。第一阶段，研究者使用配对的视觉轨迹数据训练DreamerPredictor。对于每个目标轨迹片段，系统随机采样一个源轨迹片段，其中加入小范围时间扰动。这种扰动机制让模型学会处理时间对齐的不确定性。

第二阶段，研究者冻结DreamerPredictor，微调世界模型。系统使用DreamerPredictor生成的目标潜在状态作为监督信号，让世界模型学习如何通过动作序列达到这些目标。DreamerPredictor专注于跨体语义对齐，世界模型专注于体型特定的动力学。

推理时，系统引入自适应目标更新机制。系统执行规划动作后，计算新观测的潜在状态与预期目标之间的差异。只有当差异小于阈值时，系统才推进到下一个源参考帧。否则，系统保持当前目标不变，继续优化动作直到达成。这个机制有效稳定了长时域任务，防止过早的时间推进。

PART 04

分布偏移越大，优势越明显

实验从三个维度验证系统性能。

行为基础：源和目标使用相同体型，测试系统在域内的基础能力。VPP（VideoPredictionPolicy）在这个维度表现最好，说明它在熟悉分布下的轨迹学习能力强。

alt="Image">

仿真环境评估结果

alt="Image">

真实环境评估结果

跨体桥接：源和目标使用不同体型，但任务在训练集中见过。Demo-JEPA在仿真中达到0.45的平均成功率，比VPP和XSkill分别高0.17和0.28。在真实世界中达到0.55，显著优于基线。

alt="Image">

仿真环境下的目标参考对比与架构消融实验

alt="Image">

真实环境下的目标参考对比与架构消融实验

零样本泛化：源和目标使用不同体型，且任务从未见过。Demo-JEPA在仿真中达到0.36，VPP和XSkill仅为0.04和0.03。在真实世界中达到0.25，而基线几乎完全失败。

分布偏移越大，Demo-JEPA的优势越明显。这验证了核心假设：将跨体演示解释为潜在目标，比将其视为固定动作序列或技能原型更有效。

实验对比了三种目标参考：naive（直接使用源演示的未来潜在状态）、oracle（使用目标体型的真实未来轨迹，部署时不可用）、Demo-JEPA。Naive方法在所有任务上完全失败，说明V-JEPA2.1的潜在表示本身不具备跨体兼容性。Demo-JEPA接近oracle的性能，证明DreamerPredictor成功地将异构演示转换为目标兼容的潜在目标。

PART 05

任务多样性比数据量更重要

缩放研究显示，当研究者将任务类别减少到20%时，跨体桥接和零样本泛化的成功率分别降至0.18和0.18。当研究者将每个任务的轨迹数减少到20%时，成功率为0.27和0.27。

在50%规模下，同样的趋势持续。这表明，接触多样化的任务语义是可迁移源到目标潜在映射的主要驱动力。增加任务内轨迹进一步提升预测器的鲁棒性。

研究者将DreamerPredictor的输出用于条件化扩散策略（Demo-DP）。在行为基础维度，Demo-DP表现优于原始Demo-JEPA，因为扩散策略在熟悉条件下是强局部动作专家。但在零样本泛化维度，Demo-JEPA显著优于Demo-DP。这突显了一个事实：虽然扩散策略在域内强大，但基于规划器的执行在未见任务的严重分布偏移下仍然更加鲁棒。

PART 06

一个方法论的转变

Demo-JEPA的价值不仅在于具体的技术实现，更在于它代表的思路转变：从动作空间的对齐，转向语义意图的对齐。

在机器人走向真实世界的过程中，纯粹的"模型规模"和"数据量"已经触及物理天花板。跨体模仿需要的不是更大的模型，而是更好的抽象。

团队将演示视为隐式的时间目标规范，而不是电机指令序列。这个看似简单的重新定义，打开了一条新路径。

当前的局限在于动作条件世界模型的建模瓶颈，系统在复杂、高精度任务上效果有限。此外，训练流程仍然需要时间或进度感知的对齐。未来工作将聚焦于提升世界模型的保真度，以及开发完全无对齐的学习策略。

论文地址：https://arxiv.org/pdf/2605.20811

项目地址：https://log2r.github.io/Demo-JEPA/

加入收藏

Tag：人形机器人

上一篇：用机器人造机器人？72美元、两片魔术贴，就能聪明地团队协作

下一篇：Genesis World 1.0重磅开源：把机器人评估成本