AutoMoT:一种基于异步 Transformer 混合模型的端到端自动驾驶统一VLA模型

张开发
2026/4/20 16:45:20 15 分钟阅读

分享文章

AutoMoT:一种基于异步 Transformer 混合模型的端到端自动驾驶统一VLA模型
26年3月来自新加坡南阳理工、哈弗大学和小米电动汽车的论文“AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving”。将视觉语言模型VLM集成到端到端E2E自动驾驶AD系统中在提升场景理解能力方面展现出巨大潜力。然而现有的集成策略存在诸多局限性它们要么难以解决推理空间和动作空间之间的分布错位问题要么未能充分利用预训练VLM的通用推理能力要么在动作策略生成过程中产生显著的推理延迟从而降低驾驶性能。为了应对这些挑战本文提出AutoMoT一个将推理和动作生成统一于单一视觉-语言-动作VLA模型中的端到端AD框架。该方法利用混合TransformerMoT架构和联合注意共享机制既保留预训练VLM的通用推理能力又通过在不同任务频率下进行异步执行实现高效的快慢推理。在多个基准测试数据集上无论采用开环还是闭环设置大量实验都表明AutoMoT 与现有最佳方法相比性能具有竞争力。我们进一步研究预训练VLM)在自动驾驶 (AD) 中的功能边界并探讨了何时需要针对 AD 进行微调。结果表明预训练 VLM 仅通过语义提示即可实现具有竞争力的多任务场景理解性能但对于决策和轨迹规划等动作级任务微调仍然至关重要。视觉语言模型VLM与端到端E2E自动驾驶系统的集成正经历快速发展并催生出多种新兴设计范式。E2E框架的一个自然延伸是将VLM集成到流水线的上游阶段Fu et al., 2025a; Li et al., 2025b其中预训练模型提供丰富的场景理解以支持下游规划如图(a)所示。另一种研究方向采用双系统架构图(b)其中VLM作为辅助模块通过提供高级条件信号来辅助传统的E2E流水线Jiang et al., 2024; 2025; Tian et al., 2025。然而这些方法都存在VLM推理空间与规划器动作空间之间固有的分布不匹配问题。此外对视觉语言模型VLM进行微调以生成中间条件信号不可避免地会将其限制在特定任务中从而降低预训练模型的通用能力。最近如图 c 所示新兴的视觉-语言-动作VLA架构通过自回归建模将推理和规划集成到单个预训练的 VLM 主干网络中Wang2025Zhou2025cb。虽然这种统一的设计结构紧凑并有效地利用了 VLM 强大的推理能力但对于现实世界的自动驾驶而言以同步的时间频率将动作策略执行与高级推理紧密耦合是不切实际的。在复杂的交互环境中这种限制尤为严重因为低延迟控制和快速重新规划至关重要。先前以文本形式生成动作的视觉语言模型Zhang et al., 2024; 2025; Hwang et al., 2024也可被视为此范式的实例。除了上述局限性之外这些方法依赖于文本token监督这本质上弱于对数值动作表示的直接监督。考虑到所有这些局限性提出以下关键问题VLA模型如何才能有效利用预训练VLM的通用智能同时获得特定领域的技能并满足实时推理的要求本文提出AutoMoT一个端到端的自动驾驶框架它将异步推理和动作无缝地统一到一个视觉语言动作VLA模型中同时避免了VLM能力的退化以及跨任务空间分布的差异。如图 d 所示AutoMoT 采用混合 Transformer (MoT) 架构通过共享潜空间中的联合注意机制将高层推理场景理解和低层动作策略决策和轨迹规划连接起来。这种设计使得文本推理和动作生成能够以不同的时间频率异步执行从而实现快慢推理。网络架构AutoMoT 的整体框架如图所示。AutoMoT 由两个核心组件构成场景理解专家和动作专家两者均采用基于 Transformer 的架构实现。场景理解专家 AutoMoT 中场景理解专家 (UE) 的主要作用是理解场景并针对复杂场景尤其是长尾和罕见情况生成思维链 (CoT) 推理同时将其通用知识迁移到动作策略学习中。UE 采用 Qwen3-VL-4B 密集模型作为其视觉语言骨干网络该模型以车载摄像头捕获的多视角多帧 RGB 图像 IRGB以及包含系统提示和用户指令的文本提示 l 作为输入并输出语义推理结果。为了充分利用预训练的 Qwen3-VL 模型的通用知识并避免推理性能的灾难性下降在整个训练过程中冻结了理解专家。动作专家 AutoMoT 中的动作专家 (AE) 负责在统一的 VLA 框架内进行决策和轨迹规划。在每个时间步 tAE 以当前观测值 o_t {IRGB_t , IBEV_t, Q(t)} 作为输入并生成动作侧的潜表示。其中IBEV_t 表示 LiDAR BEV 特征Q(t) 表示动作查询。由此可以导出 {Ql(t), Kl(t), Vl(t)}其中 l 表示第 l 个注意层。基于这些潜表示AE 为接下来的三个连续帧生成语义决策并在同一时间范围内生成时间和空间轨迹建议。更具体地说给定当前观测值 o_t 和一组动作查询 Q(t)AE 联合生成用于决策和轨迹规划的潜表示。这些表示被解码为三个输出(i) 具体元动作 Zˆ_t {zˆ_th}(ii) 未来时间路径点 Yˆ_t {yˆ_tm} 和 (iii) 空间路径点 Y-_t {y-_tn}。其中H 3 表示元动作的预测时间范围为 3 秒采样间隔为 1 秒M 6 表示在同一时间范围内时间路径点的采样间隔为 0.5 秒N 表示用于参数化参考路径的空间路径节点数。值得注意的是语言、跨模态和跨任务交互均遵循因果注意力机制而任务内和自模态交互则采用双向注意力机制。通过与用户设备 (UE) 在共享的注意力空间中运行自动执行器 (AE) 将 UE 生成的潜推理融入动作生成过程从而将决策和规划建立在高层次的场景理解之上并实现从预训练VLM到策略学习的知识迁移。注意模式如图所示。如上图所示理解、决策和规划均通过跨任务因果注意机制进行调控其中决策表征以理解为条件而规划则进一步以潜空间中的理解和决策为条件。在每个任务中潜特征遵循跨模态的双向注意机制而跨任务交互则由因果注意力机制控制。AE 被实现为一个具有约 16 亿个参数的任务专用 Transformer 模型并从头开始训练以捕获自动驾驶领域的特定知识。值得注意的是AE 的运行频率高于 UE从而能够进行高效推理并支持在复杂环境中进行实时自动驾驶。规划头讨论近年来诸如扩散策略Chi et al., 2025等生成式规划器在自动驾驶领域展现出巨大的潜力。在框架中将策略模块实现为基于DiT的扩散策略。与从聚类轨迹Zou et al., 2025或纯白噪声Chi et al., 2025开始逆向过程不同其用自编码器AE预测的粗略轨迹作为信息先验并执行截断逆向去噪来生成最终的策略轨迹。这种设计提供更可靠的初始化并显著加快推理速度。为了在去噪过程中有效利用异构信息扩散策略利用两个互补的信息源来自自编码器AE的潜决策状态 h_de 用于生成决策感知轨迹以及来自视觉编码器的BEV特征 F_bev 用于空间引导。现有的扩散规划器例如编码器-解码器架构Li2025b和级联交叉注意解码器Liao2025通常依赖于非结构化的初始化和跨异构模态的隐注意平衡这可能会削弱轨迹先验所携带的结构性引导。为了解决这个问题引入一种混合注意MoA机制如图所示以实现更有效的多源融合同时保留锚点轨迹提供的有效信息。具体而言MoA 采用一种主旁路融合设计。在主路径中联合注意基于三个来源进行计算时间查询和空间查询之间的自注意、对BEV特征的交叉注意以及对潜决策状态的交叉注意。此外潜决策状态的贡献由一个可学习因子g tanh(γ)进行调节从而实现对多帧元动作的自适应控制。训练策略决策制定。将决策制定问题建模为基于元动作的token级序列建模问题并以多帧驱动观测为条件。为了进行真实世界评估构建一个基于 nuScenes 的多帧决策数据集称为 NuSync。具体来说NuSync 以四个连续的历史 RGB 观测值以及一个额外的 RGB-BEV 对作为输入。在同步设置下RGB-BEV 对与最后一个历史帧共享相同的时间戳即 Isync_t {IRGB_t, IRGB_t1, IRGB_t2, IRGB_t3, IRGB_t3, IBEV_t3}。此外还构建时间异步样本其中四个历史帧保持连续而 RGB-BEV 对则随机选择在前 1 到 2 帧对应于 2 Hz 下的 0.5–1 秒之后。例如Iasync_t {IRGB_t, IRGB_t1, IRGB_t2, IRGB_t3, IRGB_tk, IBEV_tk}其中 k ∈ {4,5}。在输出空间中NuSync 对 3 秒时间范围内的元动作进行标注在 1 秒、2 秒和 3 秒时分别提供多达 20 种纵向和横向动作的组合。经过整理后NuSync 总共包含 80.1K 个样本。类似地对于 CARLA 模拟遵循相同的协议基于 PDM-Lite 构建 PDM-Meta 数据集。由于模拟中横向元动作之间的边界模糊仅标注纵向决策。NuSync 和 PDM-Meta 是首批支持异步多帧元动作推理的开源决策数据集。基于构建的元动作数据集给定观测序列 o_tAE 预测元动作token序列 zˆ_t {zˆj_t}其中 j 表示第 j 个tokenM 表示编码为一个元动作所需的token数量。与 UE 使用的下一token预测不同AE 采用逐token预测范式并通过最小化目标决策token的负对数似然来优化策略L_DM。轨迹规划 AutoMoT 遵循 nuScenes 和 PDM-Lite 的原始设置适用于 AE 和 AR每个样本包含四个历史帧并在 3 秒的时间范围内预测和优化时空轨迹。对于 AE用 l1 损失函数优化轨迹规划Ltemp_traj和Lspatial_traj。值得注意的是决策和轨迹规划在AE内部进行联合优化使得AutoMoT能够学习基于UE语义表示的连贯动作策略。基于联合注意机制的异步推理将异步推理建模为一个多速率过程其中推理和动作推理以不同的时间分辨率演化但两者都基于实时视觉观测。这两个过程之间的交互由共享的KV缓存介导。在任意时间步t给定当前观测值o_tAE为每个注意层导出逐层查询、键和值{Ql_act(t), Kl_act(t), Vl_act(t)}。相应地τ(t) 表示动作步骤 t 时可获得的最新场景表征更新时间索引满足 τ(t) ≤ t。在更新时间 τ(t)UE 生成一组逐层 KV 表征并将其存储在持久 KV 缓存中C^τ(t)。因此最终注意计算中涉及的K和 V由 UE 在时间 τ(t) 的 KV 缓存与 AE 在时间 t 导出的 KV 表征组合而成Kl(t) 和 Ṽl(t)。然后计算联合注意 Attnl(t)。联合注意和异步推理构成 AutoMoT 的核心特征。通过允许动作推理重用以不同时间频率更新的场景表征所提出的框架使得决策和轨迹规划能够以比场景理解更高的执行频率运行同时仍然基于实时感知输入。该设计符合现实世界自动驾驶的实时性要求。实验设置数据集。对于推理任务评估所有模型在自动驾驶基准数据集和通用领域数据集上的总体性能包括 OmniDrive (Wang et al., 2024)、ScienceQA 和 FigureQA。对于动作级任务AutoMoT 主要在三个数据集上进行训练nuSync本文已对其进行标注和整理用于决策、nuScenes (Caesar et al., 2020) 和 CARLA-Garage 数据集 (Jaeger et al., 2023a)用于轨迹规划。遵循轨迹规划基准测试提供的原始训练和评估协议。此外专门针对两个自动驾驶VQA数据集LingoQAMarcu2024和CODA-LMChen2025对AutoMoT的理解专家进行了微调。基准测试和指标。用LingoQAMarcu2024基准测试的原生指标Lingo-Judge评估场景理解性能并使用基于GPT的评分在其他自动驾驶专用和通用VQA​​数据集上进行评估。还使用nuScenesCaesar2020基准测试评估AutoMoT的开环性能其中决策采用平均准确率AA轨迹规划采用L2距离和碰撞率。闭环性能评估基于 Bench2Drive (Jia et al., 2024) 基准测试并遵循官方提供的评估指标。实现细节每个动作token对应 0.5 秒的运动预测。自编码器 (AE) 预测一系列动作token以解码粗略的未来轨迹这些轨迹随后由基于扩散的规划器进一步细化。对于动作策略学习采用 1 × 10⁻⁴ 到 2 × 10⁻⁵ 的学习率并采用完全分片数据并行 (FSDP) 训练策略。动作专家预测 6 个轨迹点和 20 个路径点其中 λ 0.5。该模型使用 8 个 NVIDIA A100 GPU 进行训练。

更多文章