低成本搞定“最后一毫米”:RL Token如何让VLA学会真正拧螺丝

张开发
2026/5/23 4:13:01 15 分钟阅读
低成本搞定“最后一毫米”:RL Token如何让VLA学会真正拧螺丝
先说结论方法核心是让VLA输出一个“RL Token”作为感知压缩接口并让轻量级Actor直接接收VLA的“参考动作”作为先验将在线RL转化为局部精修。整个微调架构极其轻量2-3层MLP计算成本低能与50Hz的高频控制实时配合实现数小时内的快速适应。该方案是一种高效的“嫁接”策略用冻结大模型轻量微调头的组合务实解决了端到端微调VLA的高成本难题但牺牲了一定的理论优雅性和探索上限。拆解RLT如何用“压缩感知”和“动作锚定”两大核心在数小时内低成本提升VLA的精细操作能力并探讨其“务实但不够优雅”的工程权衡。让一个看过几万小时操作视频的VLA大模型去拧一颗螺丝听起来应该易如反掌。但现实往往是机械臂能流畅地接近、对准却在最后那下“拧进去”的瞬间要么角度偏了一点点要么力度犹豫了半秒最终功亏一篑。这就是所谓“最后一毫米”的精度困境。VLA通过海量数据学到了通用的操作范式像一个经验丰富的老师傅但面对特定工件、特定夹具的微妙差异它缺乏那种肌肉记忆般的精确反馈和调整能力。传统的解决思路是用强化学习在线微调让机器人在真实任务中“练习”。但问题来了微调一个数十亿参数的VLA需要的交互数据量和计算成本对真实的机器人实验室或产线来说几乎是天文数字。这就像为了教老师傅用一把新扳手要求他把毕生武功重练一遍成本高得离谱。所以当看到RLT这类工作出现时它的核心吸引力非常直接能不能只用几小时的练习花小钱办大事它给出的答案是一套相当务实的“嫁接”方案。整个设计的起点是意识到我们不需要、也负担不起从头到尾调整那个庞大的VLA。更聪明的做法是把它当成一个冻结的“感知与建议生成器”。RLT在此基础上做了两件关键事。第一件事是给VLA装一个“浓缩输出口”即RL Token。VLA内部的多层Transformer表征蕴含了丰富的空间和语义信息但直接拿来给RL用太臃肿。RLT训练一个小型编码器-解码器强迫VLA学会用一个紧凑的向量RL Token来概括当前状态中对操作最有用的信息。这相当于把一本厚厚的现场报告压缩成了一页决策摘要极大降低了后续RL模型的处理负担。第二件事更体现工程上的巧思它不让轻量级的Actor网络凭空生成动作而是直接把VLA此时此刻生成的“参考动作块”喂给Actor作为输入条件。同时在训练目标上增加一个让Actor输出动作不要偏离这个参考动作太远的正则化项。这个设计一举三得。首先它为探索提供了一个高质量起点RL不再是在整个动作空间里盲目乱撞而是在VLA认为“大概率正确”的动作附近做精细化调整。其次它天然地保持了与VLA多模态输出能力的兼容。最后这种“锚定”效应极大地稳定了训练减少了训练初期由于随机策略导致的危险或无效探索这在真实机器人实验中至关重要。有了RL Token作为感知输入有了参考动作作为先验锚点后续的强化学习部分就可以做得非常轻量。这就是为什么RLT中的Actor和Critic网络仅仅是2到3层的MLP。它们的任务不再是理解世界而是基于VLA提供的优质“摘要”和“草案”学习做微小的、价值最大化的修正。这种极简架构带来了一个关键优势它能跟上50Hz的高频控制节奏。在拧螺丝、插接口这样的任务里毫秒级的延迟都可能导致失败。如果微调模块本身就很笨重根本无法实用。RLT把大部分计算负荷留给了离线运行的VLA生成参考动作和RL Token在线部分只是MLP的前向传播确保了实时性。训练过程也围绕着“高效”展开。采用离策略算法可以充分复用历史数据包括VLA自运行的数据和人类干预的数据。高更新数据比让智能体从有限交互中尽可能多地学习。实验结果显示在充电器插入等任务上仅用数小时交互不仅成功率提升动作也变得更快、更果断甚至涌现出像“利用晃动顺应性插入”这种人类示教中未明确出现的策略。然而这种务实方案背后也有清晰的代价和边界。它本质上是一种工程折衷。最优性能的天花板可能受限于冻结的VLA主干。如果任务所需的技能与VLA预训练知识偏差极大或者需要完全跳出VLA的动作范式这个“锚定”机制反而可能成为束缚。参考动作Dropout随机屏蔽参考动作输入的trick就是为了缓解Actor过度依赖VLA而不会独立思考的问题。它的成功高度依赖于“动作分块”的设定。RL学习的是长度为C例如10步的动作块而非单步动作。这大大缩短了信用分配的距离使得稀疏奖励信号成功/失败能够有效传播。如果回到单步决策面对长达数百步的任务这种方法很可能失效。此外整个流程并非完全端到端自动化。论文中提到了在关键阶段切换RL策略、以及最终可能需要微调VLA来学习“何时切换”的步骤。这说明在实际部署中仍然需要一些工程集成和可能的额外监督微调环节。所以RLT到底给了我们什么它提供了一个在现有强大但笨重的VLA模型与快速、低成本的在线自适应之间搭建可行桥梁的范本。它不追求理论上的优雅或极限性能而是用“冻结主干轻量RL头”的嫁接方式明确回答了“如何在预算内快速解决精度问题”。如果按照这个思路去尝试落地更现实的路径可能是首先确认你的精度瓶颈是否真的在于“最后一毫米”的局部调整而非全局规划错误。其次评估手头的VLA模型在该任务上提供的“参考动作”是否大致靠谱这是整个方法的基石。最后准备好应对工程集成的挑战比如如何定义和触发“关键阶段”如何设计奖励函数以及如何管理数据闭环。它可能不是终极答案但在算力和数据成本依然现实的今天这种愿意做折衷、追求即刻可用性的思路或许才是让AI真正“动手”的关键一步。最后留一个讨论点在资源有限的机器人应用中面对一个需要高精度微调的VLA模型你会优先尝试这种“冻结主干轻量RL头”的嫁接式方案还是继续投入资源优化端到端的RL微调流程为什么

更多文章