世界行动模型比VLA模型更具泛化能力吗?一项稳健性研究

张开发
2026/4/3 19:12:08 15 分钟阅读
世界行动模型比VLA模型更具泛化能力吗?一项稳健性研究
26年3月来自华为和多伦多大学的论文“Do World Action Models Generalize Better Than VLAs? A Robustness Study”。现实世界中的机器人动作规划极具挑战性因为它不仅需要理解环境的当前状态还需要预测环境将如何响应动作而演变。视觉-语言-动作VLA方法利用动作专家对大规模视觉-语言模型进行重构用于机器人动作生成并在各种机器人任务中取得显著成功。然而其性能仍然受限于训练数据的范围对未见过的场景泛化能力有限且易受各种上下文扰动的影响。近年来世界模型作为VLA的替代方案被重新审视。这些模型被称为世界动作模型WAM它们基于在大型视频数据集上训练的世界模型构建用于预测未来状态。通过少量调整其潜表示可以被解码为机器人动作。研究表明WAM的显式动态预测能力结合从网络规模视频预训练中获得的时空先验信息使其比VLA具有更有效的泛化能力。本文对当前最先进的视觉-语言-动作VLA策略和近期发布的世界动作模型WAM进行比较研究。在LIBERO-Plus和RoboTwin 2.0-Plus基准测试数据集上针对各种视觉和语言扰动评估它们的性能。结果表明WAM展现出强大的鲁棒性其中LingBot-VA在RoboTwin 2.0-Plus上的成功率达到74.2%Cosmos-Policy在LIBERO-Plus上的成功率达到82.2%。虽然VLA例如π0.5在某些任务上可以达到类似的鲁棒性但它们通常需要使用各种机器人数据集和不同的学习目标进行大量训练。部分融合基于视频动态学习的混合方法展现出中等的鲁棒性这凸显视频先验信息整合方式的重要性。总而言之该研究结果揭示WAM相对于VLA的优势以及在实际部署中仍面临的挑战。在真实世界环境中进行机器人运动规划——无论是导航、操作还是移动——仍然极具挑战性。关键难点在于真实世界环境的多样性和不确定性这使得机器人策略难以预测其行为的后果。近年来视觉-语言-动作VLA策略[Black et al., 2025a, Kim et al., 2025]作为一种新的范式出现与传统的运动规划方法[Elbanhawi and Simic, 2014]相比更具优势。VLA策略利用基于大规模视觉和语言数据训练的基础模型在包括导航[Xu et al., 2024]、操作[Zheng et al., 2026]和移动[Jiang et al., 2026]在内的各种机器人任务中都展现出了优异的性能。尽管VLA性能优异但它们也存在一些显著的局限性包括泛化能力有限[Ma et al., 2026]以及对干扰和杂乱环境缺乏鲁棒性[Rasouli et al., 2026]。本质上它们通常缺乏对物理世界的基本理解而这种理解对于在各种环境中进行一致的规划至关重要。为了解决这个问题最近的研究开始将世界模型融入机器人策略中。传统上世界模型主要用作模型训练和评估的模拟器[Cutler et al., 2015, Ha and Schmidhuber, 2018a, Hafner et al., 2020]。近年来它们越来越多地以各种方式集成到机器人策略包括VLA算法中例如作为辅助训练目标[Chen et al., 2025b, Cen et al., 2025]、规划模块[Yin et al., 2025, Gao et al., 2025]或基于流策略的引导机制[Du and Song, 2025, Huang et al., 2025, Chen et al., 2026b]。在此趋势的基础上一些新方法更进一步提出直接使用世界模型作为控制策略[Kim et al., 2026, Goswami et al., 2025b, Liao et al., 2025, Li et al., 2026b, Ye et al., 2026]其中模型的潜表示被解码为动作。鉴于基础模型和世界模型之间存在诸多相似之处关于世界模型的主要优势以及在规划中是否必须显式使用世界模型一直存在争议因为基于基础的机器人策略可能已经隐式地对世界动态进行建模。为了探究这个问题对最先进的VLA策略和世界动作模型WAM进行比较研究旨在突出它们在各种上下文扰动下的差异。更具体地说利用两个增强型操作基准测试来评估策略模型的鲁棒性LIBERO-Plus [Fei et al., 2025]它为单臂操作任务引入七种类型的扰动以及RoboTwin 2.0-Plus一个内部基准测试它在RoboTwin 2.0的双臂Aloha-Agilex设置中遵循类似的扰动协议 [Chen et al., 2025a]。世界模型能够学习世界的内部表征并能根据行动预测未来的状态。尽管该概念已被研究多年[Craik, 1967, Sandage, 1988, Ha Schmidhuber, 2018b]但近年来其研究兴趣激增并已应用于图像检索[Tang et al., 2025]、自动驾驶[Hassan et al., 2025, Zhao et al., 2025a]、医学成像[Yue et al., 2025, Yang et al., 2025a]、人脸生成[Zheng et al., 2025]、机器人运动[Hao et al., 2025, Wang et al., 2025]、导航[Bar et al., 2025, Yao et al., 2025]、物体操作[Zhen et al., 2025]等诸多领域。在机器人领域世界模型已被用于多种用途包括作为训练和评估的模拟器[Shang et al., 2025]、作为辅助模块来增强规划策略[Yin et al., 2025]或者经过某些调整后作为策略本身[Goswami et al., 2025a]。WAM尽管VLA取得了成功但它们大多是在以自回归的下一个token预测目标预训练的视觉-语言模型VLM骨干模型基础上进行微调而来。这种以语言为中心的预训练方法虽然能够使模型捕捉到高层次的视觉语义但往往忽略对精细世界动态的感知和预测而这对于精确的机器人控制至关重要。随着动作条件视频生成技术的最新进展越来越多的研究开始探索如何将视频生成模型应用于策略学习[Bi et al., 2025, Hu et al., 2025, Kim et al., 2026, Li et al., 2026b, Ye et al., 2026]。Hu[2025]提出的视频预测策略VPP是最早尝试将视频生成骨干模型应用于机器人动作生成的研究之一。具体而言首先对视频扩散模型进行预训练使其能够基于文本引导的视频预测任务然后进一步调整该模型使其能够生成机器人动作。该扩散策略头基于视频模型编码的视觉特征。实验结果表明视频预训练阶段对于性能的提升至关重要。基于此范式mimic-video [Pai et al., 2025] 利用语言条件视频生成模型即 Cosmos-Predict2-2B [Agarwal et al., 2025]同时保留相同的两阶段训练方案。它引入一个从头开始训练的基于流匹配动作解码器该解码器用作逆动力学模型 (IDM)。基于 Genie Envisioner (GE) 平台的 GE-Act [Liao et al., 2025] 也采用类似的策略。它利用预训练的视频扩散模型骨干即 LTX-Video-2B引入一个轻量级的流匹配动作解码器该解码器将视频模型编码的潜特征映射到机器人动作轨迹。尽管 mimic-video 和 GE-Act 都取得了成功但从头开始训练额外的动作解码器可能会破坏视频模型学习到的潜空间并增加额外的训练成本。相比之下Cosmos-policy [Kim] 则避免这一问题。 [Li et al., 2026] 对视频生成模型 Cosmos-Predict2 的扩散过程进行了最小程度的调整直接将机器人状态、未来图像和值估计编码为潜帧。通过这些轻量级的架构修改该模型在策略、世界模型和值预测的联合训练目标下进行微调。由此产生的模型通过其预测的未来状态和值估计支持直接策略生成和基于模型的规划。LingBot-VA [Li et al., 2026b] 和 DreamZero [Ye et al., 2026] 通过将未来状态预测和动作推理统一在一个交错序列中并根据前一步的输出自回归地生成未来预测增强基于视频的策略模型的因果推理能力。这种方法实现高效的KV缓存记忆集成同时确保因果一致性——这两点对于长时域机器人任务至关重要。尽管使用不同的视频生成骨干网络但这两种方法都解决机器人控制视频模型推理速度慢的问题。为了提高实时性能它们通过异步推理流水线和部分视频去噪等技术加速推理以及其他优化措施。下表总结近期 WAM 的关键特征。仅考虑那些利用预训练的世界模型骨干网络生成机器人动作且架构修改极少或无需修改的方法。因此MOTUS 不在此列表中尽管它采用预训练的 Wan2.2-5B 进行视频生成但它依赖于额外的 VLM 来进行动作生成而不是世界模型骨干网络本身。通常对视频骨干网络进行轻量级修改以编码机器人关节状态并生成机器人动作。扩散和流匹配是常用的机器人动作生成方法。这些模型经过训练以预测未来的状态和动作并且在大多数情况下需要使用大规模机器人数据进行训练。虽然像 LingBot-VA 这样的方法将动作生成与预测的未来状态联系起来但 Cosmos-policy 和 DreamZero 则联合对状态和动作进行去噪。GE-Act、LingBot-VA 和 DreamZero 都采用自回归生成以历史上下文为预测条件从而提高时间一致性和推理效率。WAM 与 VLA 的区别WAM 与 VLA 在骨干模型选择、训练策略和预测方案方面存在差异。WAM 利用预训练的视频生成模型进行视频合成而 VLA 通常基于预训练的 VLM 骨干网络进行下一token预测。下表总结几个有影响力的 VLA、WAM 和混合方法使用的训练数据集。在符号方面训练方案分为两个阶段与任务无关的策略训练和特定任务的微调。策略训练阶段可以包含一个预训练阶段也可以包含预训练和后训练两个阶段。在策略训练阶段WAM 通常使用机器人操作数据进行训练以联合预测未来的状态和动作。相比之下VLA 通常针对下一个token预测或动作扩散进行训练通常不仅使用机器人数据在某些情况下还会使用多模态网络数据和人类视频 [Black et al., 2025a, Bu et al., 2025]。在预测方案方面VLA 通常通过 p_θ(a_t | h_t) 将当前状态 h_t 直接映射到动作 a_t。相比之下WAM 要么通过 p_φ(h_t1, a_t | h_t) 联合预测未来状态 h_t1 和动作 a_t要么先预测未来状态然后根据预测的未来状态生成动作类似于逆动力学模型如 p_φ (h_t1 | h_t) · g_ψ (a_t | h_t , h_t1)。诸如 Cosmos-Predict2 之类的视频生成骨干网络的预训练阶段涉及未来状态预测——特别是 p_φ(h_t1 | h_t) 分量——该分量在涵盖自然动态、手部运动、驾驶等各种互联网规模的视频数据上进行训练。这种预训练目标增强模型捕捉一般物理动态和预测细粒度时空状态转换的能力。有了这些先验物理知识WAM 的策略训练阶段可以主要集中于建立通用动作预测 g_ψ (a_t | h_t , h_t1)这是一个相对容易学习的问题。先前的研究表明能够泛化到多步骤目标导向任务的智体必须有效地学习环境中的预测结构 [Richens et al., 2025]。相比之下VLA 的骨干网络——VLM——通常在静态图像-文本数据上进行训练因此往往缺乏细粒度的动态预测能力。因此VLA 通常需要在策略训练期间获得更多样化的几何基础、视频数据和机器人数据以便隐式地获取世界动态模型。研究结果表明WAMs在单臂和双手操作场景下均表现出对噪声、光照和布局扰动的强鲁棒性。这种鲁棒性被认为至少部分归因于其世界模型骨干所继承的时空先验信息。虽然经典的VLA如π0.5 [Black et al., 2025a]以及混合方法如MOTUS [Bi et al., 2025]和VLA-JEPA [Sun et al., 2026]可以达到相当甚至更优的鲁棒性但它们通常需要精心整理且多样化的数据集以及/或者在策略训练阶段设定明确的动态预测目标。相比之下策略训练阶段的简洁性是WAMs相对于经典VLAs的一个关键优势。然而WAMs较高的推理开销仍然是限制其在实际机器人系统中部署的主要挑战其单次推理速度至少比π0.5慢4.8倍。需要进一步研究以更有效地利用世界模型骨干的动态先验同时提高训练和推理效率。数据集为了系统地比较世界动作模型WAM和视觉-语言-动作VLA模型在不同扰动因素下的鲁棒性本文提出RoboTwin 2.0-Plus基准数据集。该数据集基于RoboTwin 2.0 [Chen et al., 2025a] 构建并遵循LIBERO-Plus [Fei et al., 2025] 的扰动协议仅对部分参数进行微调。具体而言扰动沿以下几个方面进行1相机改变第三人称相机的视角姿态2机器人改变初始关节配置3语言改写或修改任务指令4光照改变光照强度、阴影方向和色温5背景改变桌面和场景纹理6噪声对输入图像施加光度畸变以及7布局在工作空间中引入与任务无关的干扰物。本基准测试旨在方便评估基于 RoboTwin 2.0 训练的开源检查点的 WAM 和 VLA。此外还使用开源的 LIBERO-Plus 基准测试Fei [2025]评估现有方法。LIBERO-Plus 和 RoboTwin 2.0-Plus 的底层环境存在显著差异。主要区别在于它们的观察空间和动作空间。LIBERO-Plus 采用配备两台摄像头的 7 自由度 Franka Panda 机器人——一台第三人称视角摄像头和一台腕部摄像头——两台摄像头的分辨率均为 256 × 256。相比之下RoboTwin 2.0-Plus 采用基于 Aloha-Agilex 平台的双臂双手动系统配备三台摄像头一台头部第三人称视角摄像头和两台腕部摄像头每台摄像头拍摄的图像分辨率均为 320 × 240。这些在具身性、感知配置和动作空间方面的差异使得这两个基准测试具有互补性。LIBERO-Plus 主要评估单臂在扰动下的灵巧性而 RoboTwin 2.0-Plus 则侧重于双臂协调的鲁棒性。评估方法对已公开可用检查点的 VLA 和 WAM 进行全面的评估。在 RoboTwin 2.0-Plus 上用基于原始 RoboTwin 2.0 数据集微调的已发布检查点评估 X-VLA [Zheng et al., 2026]、MOTUS [Bi et al., 2025] 和 LingBot-VA [Li et al., 2026b]。由于 JAX 和 PyTorch 实现的 π 系列模型之间存在已知的性能差距Bi et al. [2025] 和 Li et al. [2026b] 也对此进行报道以及由于缺乏 JAX 版本的 π0.5因此采用基于原始 RoboTwin 2.0 数据集的 JAX 和 PyTorch 实现。 在 RoboTwin 2.0 数据集上对 JAX 实现的 π0.5 进行了微调。该模型基于预训练的 π0.5 检查点在完整的 27.5k RoboTwin 2.0 训练数据上进行 60k 次梯度迭代的微调使用openAI的配置AdamW 优化器β10.9β20.95梯度裁剪值为 1.0余弦衰减学习率调度峰值 2.5×10⁻⁵衰减至 2.5×10⁻⁶批大小 64以及增量关节动作。LIBERO 数据集上公开提供更多模型检查点其中一些已在 LIBERO-Plus 数据集上进行评估。报告一系列不同的VLA和WAM的结果包括来自π0系列的经典VLA [Black et al., 2025b,a]JAX版本将世界建模作为辅助任务的方法例如VLA-JEPA [Sun et al., 2026]以及最新的WAM包括GE-Act [Liao et al., 2025]和Cosmos-Policy [Kim et al., 2026]。尽管DreamZero [Ye et al., 2026] 包含在WAM分类中但出于以下三个原因将其排除在基准评估之外。首先其发布的检查点是基于专有的跨具身数据集训练的未经重训练无法直接应用于LIBERO或RoboTwin 2.0。其次由于该模型基于 Wan2.1-14B 视频生成骨干网构建在所有调查的 WAM 中规模最大且其自回归交错训练过程需要大量的 GPU 资源因此重新训练成本极高。第三推理流程需要超过 15 分钟的预热阶段这使得在数千个部署实例上进行基准测试规模的评估变得不切实际。因此在架构比较中报告 DreamZero但将其排除在定量评估之外。可视化VLA和WAM的区别如图所示Gemini

更多文章