AI RAG训练入门到精通(非常详细),搞懂腾讯Search-P1如何超越R1,收藏这篇就够了!

张开发
2026/4/5 19:08:18 15 分钟阅读

分享文章

AI RAG训练入门到精通(非常详细),搞懂腾讯Search-P1如何超越R1,收藏这篇就够了!
一句话讲清楚传统方法只看结果对不对Search-P1教你看推理路径好不好——即使答案错了正确的推理步骤也能获得奖励让大模型训练效率提升7.7个百分点。一、研究背景为什么Agentic RAG训练这么难1.1 从RAG到Agentic RAG智能检索的进化检索增强生成RAG已经成为大模型获取外部知识的标配技术。传统的RAG流程很简单用户提问 → 检索文档 → 模型生成答案。这就像考试时允许你查一次资料。但现实中的问题往往更复杂。比如这个问题“马云的妻子和张艺谋的妻子谁的年龄更大”要回答这个问题需要先检索马云的妻子是谁→ 发现是张瑛再检索张瑛出生年份→ 1973年检索张艺谋的妻子是谁→ 陈婷检索陈婷出生年份→ 1981年对比得出结论张瑛更大单轮检索根本搞不定这类多跳问题。这就是Agentic RAG智能体RAG登场的背景——让模型像个智能研究员一样自己决定什么时候检索、检索什么。1.2 Search-R1强化学习训练智能体2025年3月Search-R1提出了一个开创性的想法用强化学习训练大模型学会智能检索。它的核心设计是模型在推理过程中可以发出特殊标记来触发搜索系统检测到这个标记后调用搜索引擎获取结果模型阅读搜索结果后继续推理最终给出答案时根据正确与否给予奖励这就像训练一个学生做完题后只告诉他对或错通过不断的试错让他学会什么时候该查资料、查什么。1.3 问题来了稀疏奖励和低样本效率Search-R1的方法虽然有效但存在两个致命问题问题一稀疏奖励信号假设模型推理了10步最终答案错了。在Search-R1的设计中整个轨迹获得零奖励。问题A国的首都是哪里模型推理过程Step 1: 思考需要查A国的信息 ✓ 正确Step 2: 检索A国首都 ✓ 正确Step 3: 获取结果B市 ✗ 错误搜索引擎返回了错误信息Step 4: 得出答案B市 ✗ 错误最终结果答案错误 → 奖励 0虽然Step 1和Step 2的决策是完全正确的但因为最终答案错了这些正确的步骤得不到任何正向反馈。这就像老师只看卷面分数完全不看解题过程。问题二低样本效率在复杂推理任务中失败是常态。可能10次尝试中只有2次成功。Search-R1的设计意味着成功的2次样本贡献学习信号失败的8次样本被完全浪费这在训练数据稀缺的情况下是巨大的浪费。二、Search-P1的核心思想路径中心的奖励设计论文提出Search-P1框架核心思想可以概括为重视过程而非只看结果。2.1 整体框架图这个框架图展示了Search-P1的完整工作流程。左上部分参考规划器生成Reference Planner Generation在训练前使用高能力LLM离线生成参考规划器。对于每个训练样本生成K条候选轨迹筛选出正确答案的轨迹然后通过LLM投票提炼出优化后的参考规划器。右上部分双轨路径评分Dual-Track Path Scoring评估轨迹质量从两个互补的角度自一致性轨道Self-Consistency评估模型是否有效执行了自己声明的计划参考对齐轨道Reference-Alignment评估轨迹覆盖了参考规划器中多少关键步骤下半部分软结果评分Soft Outcome Scoring传统方法是二元奖励对1错0。Search-P1设计了软评分机制即使答案错误如果推理过程质量高依然可以获得部分奖励将原本零奖励的失败样本转化为有用的训练信号2.2 问题形式化在标准Agentic RAG框架中轨迹由交替的推理和动作步骤组成其中第i步推理第i步搜索动作搜索观察结果最终答案论文的关键创新是将隐式规划显式化重构轨迹为其中 是显式规划器概述推理策略。这有两个目的提供自我声明的计划用于评估执行情况使预期的推理结构可观察便于路径中心评估2.3 完整奖励函数Search-P1的完整奖励函数为其中路径中心奖励通过双轨评估计算软结果评分即使答案错误也能提取信号格式奖励鼓励结构良好的输出平衡系数三、核心方法详解3.1 参考规划器生成训练前通过拒绝采样和LLM投票离线生成参考规划器。对于每个训练样本使用高能力LLM生成K条候选轨迹筛选正确答案的轨迹应用LLM投票提炼优化后的参考规划器投票识别成功轨迹中最小必要步骤集产生参考推理路径。3.2 双轨路径评分轨道A自一致性评分Self-Consistency评估模型是否有效执行了自己声明的计划其中规划质量评分已执行的步骤数规划中的总步骤数轨迹中的总动作数直观理解第一个分数衡量计划执行了多少第二个分数衡量动作中有多少是有效的轨道B参考对齐评分Reference-Alignment使用顺序无关匹配衡量轨迹覆盖了多少参考规划器中的关键步骤其中完成的参考步骤数与执行顺序无关参考路径中的步骤总数轨迹中的总动作数顺序无关匹配的重要性假设参考步骤是 {A, B, C, D}传统方法要求按A→B→C→D的顺序执行Search-P1只要这4个步骤都执行了不管什么顺序覆盖数都是4这个设计非常关键因为复杂问题的解决路径往往不止一条。效率比率两个轨道都包含效率比率目的是防止通过过多冗余步骤来奖励欺骗鼓励简洁的推理轨迹最终路径奖励为什么取最大值而不是加权组合当参考计划不是最优的或者模型发现了更好的策略时自一致性轨道可以主导而不会被低参考分数稀释反之亦然。这给了模型探索更优路径的空间。3.3 软结果评分为了提高样本效率从答案错误的轨迹中提取学习信号其中权重系数部分答案正确性独立于最终答案的推理质量评分这个设计的效果将原本零奖励的失败样本转化为有用的训练信号基于路径质量给予部分奖励。四、关键技术细节软格式奖励训练过程中模型有时会生成不符合格式要求的输出。传统处理方式是给零奖励但这会导致训练不稳定。论文提出了软格式奖励。当格式不完全正确但可解析时给予一个缓冲惩罚值而不是零奖励。这避免了训练中的剧烈波动。这张图对比了三种格式奖励策略的训练动态Without Format蓝色完全不考虑格式直接训练Strict Format绿色格式错误给零奖励Soft Format红色本文方法格式错误给缓冲值从图中可以清晰看到收敛速度Soft Format红色的准确率曲线上升最快稳定性Soft Format的奖励曲线更平滑没有剧烈波动最终性能Soft Format达到最高的稳定奖励五、实验结果详解论文在多个问答基准上进行了测试包括NQ、TriviaQA、PopQA、HotpotQA、2WikiMultiHopQA、Musique、Bamboogle等数据集以及一个内部广告数据集AD-QA。5.1 性能对比雷达图解读这张雷达图展示了Search-P1与其他方法在多个数据集上的表现(a) Qwen2.5-7B 模型Search-P1在所有数据集上都超越了基线方法平均准确率提升7.7分(b) Qwen2.5-3B 模型即使在较小的3B模型上Search-P1依然有效说明方法具有良好的泛化性具体数据对比Qwen2.5-7B数据集Search-R1Search-P1提升NQ42.956.613.7TriviaQA62.378.616.3PopQA42.747.54.8HotpotQA38.642.94.32Wiki34.639.85.2Musique16.221.85.6Bamboogle40.044.04.0平均39.647.37.75.2 软结果评分效果分析这张柱状图展示了软结果评分在各数据集上的贡献灰色柱传统二元奖励对1错0的表现蓝色柱软评分奖励的表现关键发现全面正向贡献在所有测试数据集上蓝色柱都高于灰色柱失败样本的价值被充分挖掘传统方法中错误答案的样本被完全丢弃软评分让这些样本也能贡献学习信号5.3 训练效率分析(a) 训练效率对比横轴是训练步数纵轴是准确率Search-P1准确率上升曲线更陡峭表示学习更快Search-R1上升较慢需要更多训练步数(b) 推理效率对比展示了不同数据集类型下成功和失败案例的交互轮次分布成功案例的交互轮次适中失败案例可能会陷入无限检索的困境5.4 超参数敏感性分析(a) 路径奖励权重的影响路径奖励权重为0时完全不看路径只看结果相当于传统方法权重在0.3-0.5范围效果最佳(b) 准确率权重的影响准确率权重在0.6-0.8范围效果最佳六、方法深度解析6.1 为什么路径奖励有效从强化学习的角度理解传统方法的奖励信号极其稀疏——只有到达终点才有信号。这导致两个问题信用分配难题最终成功了是哪一步做对了失败了是哪一步做错了传统方法无法回答这个问题。探索效率低在稀疏奖励下模型需要大量随机探索才能偶然找到正确路径。路径奖励提供了密集的学习信号每一步都能获得反馈大大提升了学习效率。6.2 双轨设计的优势为什么需要两个轨道单靠参考对齐有一个问题参考规划器可能不是最优的。自一致性轨道提供了一个补充视角——如果模型能有效执行自己的计划即使与参考不同也应该获得奖励。取最大值而非加权和的设计这种设计给了模型探索更好路径的空间当模型发现了比参考更好的策略时不会被低参考分数惩罚当参考确实最优时模型可以获得高参考分数七、实际应用启示7.1 对AI应用开发的启发1. 复杂任务需要过程监督不仅是RAG任何需要多步推理的任务代码生成、数学推理、决策规划都可能受益于过程监督。2. 失败是宝贵的训练资源Search-P1的软评分机制让失败样本也能贡献学习信号这个思路可以迁移到其他场景。3. 奖励设计要考虑探索空间双轨设计和取最大值的设计给了模型探索更优策略的空间而不是强制遵循固定模式。7.2 局限性与未来方向1. 参考规划器的成本需要离线生成参考路径增加了预处理成本对于新领域可能需要重新生成参考2. 计算开销路径评估需要额外的计算资源双轨评分需要LLM进行语义匹配未来可能的研究方向自适应的奖励权重调整更轻量的参考规划器设计与其他强化学习技术的结合八、总结Search-P1 解决了Agentic RAG训练中的一个核心矛盾如何评价一个推理过程的价值传统方法只看结果就像只会打分不会讲评的老师。Search-P1通过路径中心的奖励设计实现了对推理过程的精细化评估双轨路径评分自一致性 参考对齐取最大值给模型探索空间软结果评分从失败样本中提取学习信号顺序无关匹配不强制推理顺序允许灵活的解决路径最终实现了平均7.7分的准确率提升证明了过程监督的巨大价值。更重要的是这篇论文启发我们重新思考AI训练的本质不是简单的对错判断而是对智能行为的精细化引导。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章