Planner：从轨迹标注到基于轨迹的有监督训练（一篇讲清自动驾驶轨迹学习的论文综述）

张开发

• 2026/6/11 5:23:12 • 15 分钟阅读

分享文章

Planner：从轨迹标注到基于轨迹的有监督训练（一篇讲清自动驾驶轨迹学习的论文综述）

从轨迹标注到基于轨迹的有监督训练：一篇讲清自动驾驶轨迹学习的论文/博客综述本文系统整理了自动驾驶中“轨迹标注方法”和“基于轨迹的有监督训练”两条主线。前者重点讨论 Waymo Open Motion Dataset、Argoverse、nuPlan、WOD-E2E 等数据/基准如何构造轨迹样本、定义 scored/focal agent、组织 ego future trajectory 与偏好标签；后者重点讨论 ChauffeurNet、Learning by Cheating、MultiPath、CoverNet、TCP、SafetyNet、World on Rails、UniAD、GameFormer 等方法如何把 future waypoints、trajectory anchors、trajectory value、preference labels 与 control guidance 变成监督信号。全文进一步从“标签构造 / imitation learning / 闭环 planning / 直接监督 future waypoints / 间接监督 trajectory value / preference / control / 按用途选读”等维度统一梳理，适合用作自动驾驶轨迹学习方向的入门与查阅清单。重点回答两个问题：轨迹是怎么标注出来的？轨迹又是怎样变成 prediction / planning / control 的监督信号的？说明：本文收录的资料只要它们对“轨迹标注方法”和“基于轨迹的有监督训练”足够有代表性，就纳入进来。另外，本文所有分类维度：更偏标签构造 / 基准定义更偏imitation learning更偏闭环 planning / planning-control 一体化直接监督 future waypoints间接监督 trajectory value / preference / control最适合看标注方法最适合抄训练目标最适合做闭环评测一、为什么这个问题要拆成“标注方法”和“监督训练”两部分？自动驾驶里的“轨迹学习”很容易被一句话概括成“预测未来轨迹”或者“模仿专家轨迹”，但真正做起来其实至少包含两层：1）轨迹标签本身怎么来也就是：场景怎么切分成一个个 sample / scenario哪些对象要被重点打分哪些轨迹是 scored、哪些是 uns cored自车轨迹、邻车轨迹、地图、信号灯状态怎么对齐多解场景下，是否只保留一条日志轨迹，还是引入 preference / rating 标签2）这些轨迹标签怎么变成监督信号也就是：直接回归 future waypoints用 trajectory set / anchors 做多模态分类 + 偏移回归用 trajectory 去引导 control branch用 trajectory 的人工偏好变成 preference supervision用 trajectory outcome / Q-value 变成 value supervision在 open-loop 指标上训，在 closed-loop simulator 里测所以，数据/标注论文和方法/训练论文要结合起来看，才不会只会“抄 loss”，却不知道 label 是怎么定义出来的。二、先给结论：这条知识线最核心的几个分类维度本文会沿着下面 6 个维度来整理资料：维度 1：更偏标签构造 / 基准定义适合回答：轨迹样本是怎么挖出来的，标签 schema 是什么，benchmark 怎么定义。维度 2：更偏 imitation learning适合回答：怎样直接把 expert trajectory 当监督目标来学策略。维度 3：更偏闭环 planning / planning-control 一体化适合回答：轨迹不只是预测结果，而是最终服务于控制、规划和闭环执行。维度 4：直接监督 future waypoints对应最典型的训练形式：τ ^ ∗ e g o ≈ τ ∗ ∗ e g o \hat{\tau}*{ego} \approx \tau^{*}*{ego}τ^∗ego≈τ∗∗ego也就是直接让模型输出的自车未来轨迹逼近专家轨迹。维度 5：间接监督 trajectory value / preference / control对应更“绕一层”的训练形式：score ( τ ) , Q ( τ ) , π ( u ∣ τ ) , safety-filteredcontrol \text{score}(\tau), \quad Q(\tau), \quad \pi(u \mid \tau), \quad \text{safety-filtered control}score(τ),Q(τ),π(u∣τ),safety-filteredcontrol也就是轨迹不一定是最终输出本身，而是：偏好分数价值函数控制引导安全层输入闭环 planner 的中间表示维度 6：按用途选读也就是：哪几篇最适合看标注方法哪几篇最适合抄训练目标哪几篇最适合做闭环评测三、完整资料池：论文/博客总表下面这张总表，尽量覆盖前面所有提到过的核心论文、官方博客和数据说明页。说明：发布时间优先按首次公开日期写；官方文档/博客有时只能精确到页面发布时间或年份。3.1 更偏数据、标注与基准定义的资料类型名称地址发布时间简介（200字内）综述A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future OutlookarXiv2024-01-02很适合作为入口。系统讨论自动驾驶数据集的 annotation process、labeling tools 和 annotation quality，适合先建立“轨迹标注流水线”的全局视角。数据/标注Large Scale Interactive Motion Forecasting for Autonomous Driving: The Waymo Open Motion DatasetICCV 2021 / CVF2021讲得很细：如何从大规模驾驶数据里挖 interactive behaviors，如何显式标注 interacting objects，以及如何生成高保真 object tracks 和 HD map 信息，是看“交互轨迹标注方法”的基础论文之一。数据/标注Argoverse: 3D Tracking and Forecasting with Rich MapsarXiv2019-11-06早期但很经典。把 rich HD maps、3D tracking annotations 和 motion forecasting 放到同一套数据设计里，适合看“轨迹、地图和目标状态”如何一起组织成训练样本。数据/标注Argoverse 2: Next Generation Datasets for Self-Driving Perception and ForecastingarXiv2023-01-02AV2 的 forecasting 部分更贴近现在的轨迹学习：提供位置、航向、速度、类别等 track histories，并围绕 ego 相关交互挖掘大规模场景。很适合看新一代轨迹样本 schema。数据/标注Motion Forecasting - Argoverse User Guide官方文档2024如果你想直接看“标签字段长什么样”，