AutoMoT：一种基于异步 Transformer 混合模型的端到端自动驾驶统一VLA模型

张开发

• 2026/4/20 16:45:20 • 15 分钟阅读

分享文章

AutoMoT：一种基于异步 Transformer 混合模型的端到端自动驾驶统一VLA模型

26年3月来自新加坡南阳理工、哈弗大学和小米电动汽车的论文“AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving”。将视觉语言模型VLM集成到端到端E2E自动驾驶AD系统中在提升场景理解能力方面展现出巨大潜力。然而现有的集成策略存在诸多局限性它们要么难以解决推理空间和动作空间之间的分布错位问题要么未能充分利用预训练VLM的通用推理能力要么在动作策略生成过程中产生显著的推理延迟从而降低驾驶性能。为了应对这些挑战本文提出AutoMoT一个将推理和动作生成统一于单一视觉-语言-动作VLA模型中的端到端AD框架。该方法利用混合TransformerMoT架构和联合注意共享机制既保留预训练VLM的通用推理能力又通过在不同任务频率下进行异步执行实现高效的快慢推理。在多个基准测试数据集上无论采用开环还是闭环设置大量实验都表明AutoMoT 与现有最佳方法相比性能具有竞争力。我们进一步研究预训练VLM)在自动驾驶 (AD) 中的功能边界并探讨了何时需要针对 AD 进行微调。结果表明预训练 VLM 仅通过语义提示即可实现具有竞争力的多任务场景理解性能但对于决策和轨迹规划等动作级任务微调仍然至关重要。视觉语言模型VLM与端到端E2E自动驾驶系统的集成正经历快速发展并催生出多种新兴设计范式。E2E框架的一个自然延伸是将VLM集成到流水线的上游阶段Fu et al., 2025a; Li et al., 2025b其中预训练模型提供丰富的场景理解以支持下游规划如图(a)所示。另一种研究方向采用双系统架构图(b)其中VLM作为辅助模块通过提供高级条件信号来辅助传统的E2E流水线Jiang et al., 2024; 2025; Tian et al., 2025。然而这些方法都存在VLM推理空间与规划器动作空间之间固有的分布不匹配问题。此外对视觉语言模型VLM进行微调以生成中间条件信号不可避免地会将其限制在特定任务中从而降低预训练模型的通用能力。最近如图 c 所示新兴的视觉-语言-动作VLA架构通过自回归建模将推理和规划集成到单个预训练的 VLM 主干网络中Wang2025Zhou2025cb。虽然这种统一的设计结构紧凑并有效地利用了 VLM 强大的推理能力但对于现实世界的自动驾驶而言以同步的时间频率将动作策略执行与高级推理紧密耦合是不切实际的。在复杂的交互环境中这种限制尤为严重因为低延迟控制和快速重新规划至关重要。先前以文本形式生成动作的视觉语言模型Zhang et al., 2024; 2025; Hwang et al., 2024也可被视为此范式的实例。除了上述局限性之外这些方法依赖于文本token监督这本质上弱于对数值动作表示的直接监督。考虑到所有这些局限性提出以下关键问题VLA模型如何才能有效利用预训练VLM的通用智能同时获得特定领域的技能并满足实时推理的要求本文提出AutoMoT一个端到端的自动驾驶框架它将异步推理和动作无缝地统一到一个视觉语言动作VLA模型中同时避免了VLM能力的退化以及跨任务空间分布的差异。如图 d 所示AutoMoT 采用混合 Transformer (MoT) 架构通过共享潜空间中的联合注意机制将高层推理场景理解和低层动作策略决策和轨迹规划连接起来。这种设计使得文本推理和动作生成能够以不同的时间频率异步执行从而实现快慢推理。网络架构AutoMoT 的整体框架如图所示。AutoMoT 由两个核心组件构成场景理解专家和动作专家两者均采用基于 Transformer 的架构实现。场景理解专家 AutoMoT 中场景理解专家 (UE) 的主要作用是理解场景并针对复杂场景尤其是长尾和罕见情况生成思维链 (CoT) 推理同时将其通用知识迁移到动作策略学习中。UE 采用 Qwen3-VL-4B 密集模型作为其视觉语言骨干网络该模型以车载摄像头捕获的多视角多帧 RGB 图像 IRGB以及包含系统提示和用户指令的文本提示 l 作为输入并输出语义推理结果。为了充分利用预训练的 Qwen3-VL 模型的通用知识并避免推理性能的灾难性下降在整个训练过程中冻结了理解专家。动作专家 AutoMoT 中的动作专家 (AE) 负责在统一的 VLA 框架内进行决策和轨迹规划。在每个时间步 tAE 以当前观测值 o_t {IRGB_t , IBEV_t, Q(t)} 作为输入并生成动作侧的潜表示。其中IBEV_t 表示 LiDAR BEV 特征Q(t) 表示动作查询。由此可以导出 {Ql(t), Kl(t), Vl(t)}其中 l 表示第 l 个注意层。基于这些潜表示AE 为接下来的三个连续帧生成语义决策并在同一时间范围内生成时间和空间轨迹建议。更具体地说给定当前观测值 o_t 和一组动作查询 Q(t)AE 联合生成用于决策和轨迹规划的潜表示。这些表示被解码为三个输出(i) 具体元动作 Zˆ_t {zˆ_th}(ii) 未来时间路径点 Yˆ_t {yˆ_tm} 和 (iii) 空间路径点 Y-_t {y-_tn}。其中H 3 表示元动作的预测时间范围为 3 秒采样间隔为 1 秒M 6 表示在同一时间范围内时间路径点的采样间隔为 0.5 秒N 表示用于参数化参考路径的空间路径节点数。值得注意的是语言、跨模态和跨任务交互均遵循因果注意力机制而任务内和自模态交互则采用双向注意力机制。通过与用户设备 (UE) 在共享的注意力空间中运行自动执行器 (AE) 将 UE 生成的潜推理融入动作生成过程从而将决策和规划建立在高层次的场景理解之上并实现从预训练VLM到策略学习的知识迁移。注意模式如图所示。如上图所示理解、决策和规划均通过跨任务因果注意机制进行调控其中决策表征以理解为条件而规划则进一步以潜空间中的理解和决策为条件。在每个任务中潜特征遵循跨模态的双向注意机制而跨任务交互则由因果注意力机制控制。AE 被实现为一个具有约 16 亿个参数的任务专用 Transformer 模型并从头开始训练以捕获自动驾驶领域的特定知识。值得注意的是AE 的运行频率高于 UE从而能够进行高效推理并支持在复杂环境中进行实时自动驾驶。规划头讨论近年来诸如扩散策略Chi et al., 2025等生成式规划器在自动驾驶领域展现出巨大的潜力。在框架中将策略模块实现为基于DiT的扩散策略。与从聚类轨迹Zou et al., 2025或纯白噪声Chi et al., 2025开始逆向过程不同其用自编码器AE预测的粗略轨迹作为信息先验并执行截断逆向去噪来生成最终的策略轨迹。这种设计提供更可靠的初始化并显著加快推理速度。为了在去噪过程中有效利用异构信息扩散策略利用两个互补的信息源来自自编码器AE的潜决策状态 h_de 用于生成决策感知轨迹以及来自视觉编码器的BEV特征 F_bev 用于空间引导。现有的扩散规划器例如编码器-解码器架构Li2025b和级联交叉注意解码器Liao2025通常依赖于非结构化的初始化和跨异构模态的隐注意平衡这可能会削弱轨迹先验所携带的结构性引导。为了解决这个问题引入一种混合注意MoA机制如图所示以实现更有效的多源融合同时保留锚点轨迹提供的有效信息。具体而言MoA 采用一种主旁路融合设计。在主路径中联合注意基于三个来源进行计算时间查询和空间查询之间的自注意、对BEV特征的交叉注意以及对潜决策状态的交叉注意。此外潜决策状态的贡献由一个可学习因子g tanh(γ)进行调节从而实现对多帧元动作的自适应控制。训练策略决策制定。将决策制定问题建模为基于元动作的token级序列建模问题并以多帧驱动观测为条件。为了进行真实世界评估构建一个基于 nuScenes 的多帧决策数据集称为 NuSync。具体来说NuSync 以四个连续的历史 RGB 观测值以及一个额外的 RGB-BEV 对作为输入。在同步设置下RGB-BEV 对与最后一个历史帧共享相同的时间戳即 Isync_t {IRGB_t, IRGB_t1, IRGB_t2, IRGB_t3, IRGB_t3, IBEV_t3}。此外还构建时间异步样本其中四个历史帧保持连续而 RGB-BEV 对则随机选择在前 1 到 2 帧对应于 2 Hz 下的 0.5–1 秒之后。例如Iasync_t {IRGB_t, IRGB_t1, IRGB_t2, IRGB_t3, IRGB_tk, IBEV_tk}其中 k ∈ {4,5}。在输出空间中NuSync 对 3 秒时间范围内的元动作进行标注在 1 秒、2 秒和 3 秒时分别提供多达 20 种纵向和横向动作的组合。经过整理后NuSync 总共包含 80.1K 个样本。类似地对于 CARLA 模拟遵循相同的协议基于 PDM-Lite 构建 PDM-Meta 数据集。由于模拟中横向元动作之间的边界模糊仅标注纵向决策。NuSync 和 PDM-Meta 是首批支持异步多帧元动作推理的开源决策数据集。基于构建的元动作数据集给定观测序列 o_tAE 预测元动作token序列 zˆ_t {zˆj_t}其中 j 表示第 j 个tokenM 表示编码为一个元动作所需的token数量。与 UE 使用的下一token预测不同AE 采用逐token预测范式并通过最小化目标决策token的负对数似然来优化策略L_DM。轨迹规划 AutoMoT 遵循 nuScenes 和 PDM-Lite 的原始设置适用于 AE 和 AR每个样本包含四个历史帧并在 3 秒的时间范围内预测和优化时空轨迹。对于 AE用 l1 损失函数优化轨迹规划Ltemp_traj和Lspatial_traj。值得注意的是决策和轨迹规划在AE内部进行联合优化使得AutoMoT能够学习基于UE语义表示的连贯动作策略。基于联合注意机制的异步推理将异步推理建模为一个多速率过程其中推理和动作推理以不同的时间分辨率演化但两者都基于实时视觉观测。这两个过程之间的交互由共享的KV缓存介导。在任意时间步t给定当前观测值o_tAE为每个注意层导出逐层查询、键和值{Ql_act(t), Kl_act(t), Vl_act(t)}。相应地τ(t) 表示动作步骤 t 时可获得的最新场景表征更新时间索引满足 τ(t) ≤ t。在更新时间 τ(t)UE 生成一组逐层 KV 表征并将其存储在持久 KV 缓存中C^τ(t)。因此最终注意计算中涉及的K和 V由 UE 在时间 τ(t) 的 KV 缓存与 AE 在时间 t 导出的 KV 表征组合而成Kl(t) 和 Ṽl(t)。然后计算联合注意 Attnl(t)。联合注意和异步推理构成 AutoMoT 的核心特征。通过允许动作推理重用以不同时间频率更新的场景表征所提出的框架使得决策和轨迹规划能够以比场景理解更高的执行频率运行同时仍然基于实时感知输入。该设计符合现实世界自动驾驶的实时性要求。实验设置数据集。对于推理任务评估所有模型在自动驾驶基准数据集和通用领域数据集上的总体性能包括 OmniDrive (Wang et al., 2024)、ScienceQA 和 FigureQA。对于动作级任务AutoMoT 主要在三个数据集上进行训练nuSync本文已对其进行标注和整理用于决策、nuScenes (Caesar et al., 2020) 和 CARLA-Garage 数据集 (Jaeger et al., 2023a)用于轨迹规划。遵循轨迹规划基准测试提供的原始训练和评估协议。此外专门针对两个自动驾驶VQA数据集LingoQAMarcu2024和CODA-LMChen2025对AutoMoT的理解专家进行了微调。基准测试和指标。用LingoQAMarcu2024基准测试的原生指标Lingo-Judge评估场景理解性能并使用基于GPT的评分在其他自动驾驶专用和通用VQA数据集上进行评估。还使用nuScenesCaesar2020基准测试评估AutoMoT的开环性能其中决策采用平均准确率AA轨迹规划采用L2距离和碰撞率。闭环性能评估基于 Bench2Drive (Jia et al., 2024) 基准测试并遵循官方提供的评估指标。实现细节每个动作token对应 0.5 秒的运动预测。自编码器 (AE) 预测一系列动作token以解码粗略的未来轨迹这些轨迹随后由基于扩散的规划器进一步细化。对于动作策略学习采用 1 × 10⁻⁴ 到 2 × 10⁻⁵ 的学习率并采用完全分片数据并行 (FSDP) 训练策略。动作专家预测 6 个轨迹点和 20 个路径点其中 λ 0.5。该模型使用 8 个 NVIDIA A100 GPU 进行训练。

更多文章

$如何5分钟搞定Word转LaTeX难题：docx2tex终极转换指南$

前端开发 2026/4/20 16:41:10

如何5分钟搞定Word转LaTeX难题：docx2tex终极转换指南

如何5分钟搞定Word转LaTeX难题：docx2tex终极转换指南【免费下载链接】docx2tex Converts Microsoft Word docx to LaTeX 项目地址: https://gitcode.com/gh_mirrors/do/docx2tex 还在为Word文档转LaTeX而头疼吗？每次复制粘贴格式全乱&#xff0c…

1. MQTT协议基础：物联网的轻量级通信语言第一次接触MQTT时，我被它的简洁性震惊了。当时正在做一个农业大棚监测项目，需要在2G网络环境下传输传感器数据。传统的HTTP协议每次请求都要建立连接，不仅耗电还占用带宽，而MQ…

张开发

前端开发 2026/4/19 17:38:30

UWPHook完整指南：如何一键将Xbox Game Pass游戏添加到Steam库

UWPHook完整指南：如何一键将Xbox Game Pass游戏添加到Steam库【免费下载链接】UWPHook 🔗 Add your Windows Store or UWP games to Steam 项目地址: https://gitcode.com/gh_mirrors/uw/UWPHook 还在为Steam无法识别Windows商店和Xbox Game Pas…

张开发

AutoMoT：一种基于异步 Transformer 混合模型的端到端自动驾驶统一VLA模型

最新文章

接口自动化测试—设置断言思路

WebSocket抓包常见误区：为什么你的Wireshark里看不到数据？附正确配置清单

终极动物森友会存档编辑器：NHSE完整使用指南与实战技巧

3个关键步骤彻底解决FanControl传感器识别问题：从诊断到预防的完整指南

嵌入式开发避坑指南：手把手教你交叉编译eudev 3.2.11到ARM/AArch64平台

哔哩下载姬：3个步骤解决B站视频下载难题，批量获取8K超清内容

推荐文章

网盘直链下载助手：告别限速困扰的八大网盘全能解决方案

【SAP Basis】从SU01出发：深入解析SAP用户账号管理的核心配置与实战

JavaScript的Symbol.unscopables：影响with语句行为的属性

一次由Nginx的proxy_pass尾随斜杠引发的重定向循环

恋爱心理学科学重构

图片EXIF元数据编辑器：单张图片的完整解决方案

相关文章

掌握媒体捕获与视频下载的7个实用技巧：猫抓cat-catch浏览器扩展完全指南

Android开发者必备：轻量级二维码解决方案ZXingLite全面解析

MogFace人脸检测在AR应用：移动端人脸关键点实时追踪与特效叠加

解锁AI编程效率：6个Continue插件实战技巧让开发效率提升10倍

[游戏录像引擎] 突破视角限制：League Director重构《英雄联盟》视频创作流程

从RK3562实践出发：AMP架构下的RPMsg核间通信实战解析

分享文章

更多文章

如何5分钟搞定Word转LaTeX难题：docx2tex终极转换指南

从ADC0808到ADC0809：51单片机电压测量方案怎么选？实测对比与选型指南

163MusicLyrics：免费音乐歌词管理工具，3分钟搞定全网歌词下载

MIT App Inventor完整指南：零代码开发Android/iOS应用的终极解决方案

终极指南：如何用Ryujinx模拟器在PC上免费畅玩Switch游戏

Java实战：手把手教你实现微信红包随机分配算法（附完整代码）

3个关键技巧：优化p5.js Web Editor开发体验

ollama+Phi-4-mini-reasoning入门必看：轻量模型如何实现类GPT-4级别推理深度

如何用BBDown命令行工具高效下载B站视频：5大特色详解

WIZnet网络芯片实战：从硬件连接到Socket编程的避坑指南

STM32物联网实战：MQTT通信从协议解析到报文实战

UWPHook完整指南：如何一键将Xbox Game Pass游戏添加到Steam库