检索很准，模型还在胡说八道？RAG系统的Prompt设计避坑指南

张开发

• 2026/4/12 4:29:26 • 15 分钟阅读

分享文章

为什么检索再准模型回答还是幻觉本文从实战角度详解RAG Prompt设计的核心要点System Prompt的角色规则约束设计User Prompt的格式化技巧约束强度的强弱对比长上下文的query-aware压缩策略Prompt 的系统化测试方法检索把对的文档找回来Prompt决定模型用不用这些文档。你有没有遇到过这种情况检索明明很准但模型回答的还是幻觉满天飞很多人把 RAG 的功夫都砸在检索上——向量召回调了、重排序加了、Top-5 文档质量贼高……但模型一回答幻觉还是满天飞。问题出在哪今天我们把 RAG 系统的Prompt工程从头到尾拆清楚。一、RAG Prompt的独特挑战它和普通 Prompt 不一样很多人把 RAG Prompt当成普通Prompt来写这是根本性的认知错误。普通Prompt vs RAG Prompt普通Prompt的逻辑你问一个问题 → 模型用自己的参数知识来回答。模型的知识边界就是答案边界这是完全合理的设计。RAG Prompt的逻辑你传进去问题检索文档→ 要求模型只用这些文档来回答。根本性矛盾LLM 在预训练阶段见过海量文本脑子里已经存了大量知识。当你给它一段检索文档问它问题它的默认行为是把检索文档的信息和自己的参数知识混合使用。这个混合就是幻觉的来源。真实案例金融保险RAG系统用户问“重大疾病险的等待期是多久”检索系统召回了 A 产品的条款明确写着等待期 180 天。但 Prompt 写得不好模型回答90 天——因为市场上有些产品确实是 90 天这个信息在模型预训练数据里存在。模型没有意识到它应该只看你给它的那份文档它把两个知识源混合了。用户拿到错误的等待期信息去理赔被拒。这是真实的业务风险。所以 RAG Prompt 的核心任务是切断模型对参数知识的依赖强制它只从检索文档里找答案。二、RAG工作流程Prompt在哪里起作用检索决定 RAG 的上限Prompt 决定 RAG 的下限。两者缺一不可。三、System Prompt设计角色规则负面约束System Prompt 做三件事定义角色— 划定知识边界设置规则— 告诉模型能做什么写明负面约束— 告诉模型不能做什么实际使用的System Prompt你是金融保险公司的智能客服助手。你只能基于提供的参考文档回答用户问题。回答规则 1. 只使用参考文档中明确提到的信息不要添加文档中没有的内容 2. 如果参考文档中没有足够信息回答问题直接说根据现有资料我无法完整回答这个问题不要猜测 3. 回答时引用来源格式[来源文档名称第X页] 4. 涉及金额、时限等关键数字必须与文档原文完全一致 5. 不确定的信息前加根据文档显示确定的信息直接陈述每条规则的设计逻辑规则类型作用角色定义第一层过滤划定知识边界“只能”核心约束不是尽量是只能“明确提到”正向约束不是相关不是推断拒绝兜底负向约束不知道就说不知道引用要求验证步骤强制先找原文数字核实重点加强金融场景零容忍关键强制语气注意用词是**“只能”**不是尽量不是主要。这个词的强度直接影响模型的行为。引用要求反幻觉的核武器强制引用来源格式是[来源文档名称第X页]。原理模型要写出引用必须真的在文档里找到对应内容。如果文档里没有它无法凭空捏造一个引用。引用要求本质上是给模型增加了一个**“验证步骤”**——它必须先找到原文再写回答。四、User Prompt设计问题上下文的结构化组织System Prompt设好了基础规则User Prompt负责把每次请求的具体内容传进去。关键格式化你不能把五段检索文档直接拼一起扔给模型模型会搞不清楚哪段是哪段。Python实现def build_rag_prompt(query: str, retrieved_docs: list) -str: # 格式化参考文档 context_parts [] for i, doc in enumerate(retrieved_docs, 1): context_parts.append( f参考文档{i}来自{doc[source]}\n{doc[text]} ) context\n\n.join(context_parts) user_promptf参考文档 {context} 用户问题{query} 请基于以上参考文档回答用户问题。如果文档中没有足够信息请如实说明。 return user_prompt四个设计细节编号来源让模型引用时有依据双换行分隔减少文档边界模糊文档在前问题在后先读文档再看问题幻觉率更低末尾重申规则强化 System Prompt 的约束五、约束写法的强弱对比约束类型示例写法幻觉率❌ 弱约束“参考以上文档回答”幻觉率较高⚠️ 中等约束“请主要基于文档尽量不要添加”有改善但不够好✅ 强约束“只能使用文档中明确提到的信息”明显降低✅✅ 强约束引用“只能使用每句标来源”效果最好关键结论只能和不得是强制性语气没有任何弹性空间引用要求让幻觉率降低效果最显著完全消除无法保证LLM本身的概率生成机制LLM 对长文本的注意力有限复杂句式可能理解偏差。参考百万 token 上下文失灵AI 智能体的 4 大失效陷阱与 6 大修复策略和 AI的记忆力有多强DeepSeek能记住12万字但有一个致命缺点Badcase 对比用户问“意外险的等待期是多久”召回了 A 产品等待期 0 天和 B 产品等待期 15 天❌ 弱约束回答“意外险通常没有等待期但也有产品设置 30 天等待期。”30 天这个数字是模型参数知识里其他产品的数据文档里根本没有。✅ 强约束引用回答“根据文档显示A产品意外险等待期为 0 天 [来源A产品条款第2页]B产品意外险等待期为 15 天 [来源B产品条款第3页]。如需了解具体产品请告知产品名称。”精准有引用拒绝了编造。六、长上下文压缩策略超长时怎么处理用户有时会问跨产品的比较类问题或者问涉及多个条款的复杂问题。检索系统可能召回 10-15 个片段总 token 数轻松超过 32K。超长上下文带来的问题超过上下文窗口直接报错迷失在中间现象模型对中间部分注意力显著弱于开头和结尾导致关键信息被忽略三种策略策略做法适用场景延迟截断法保留 Top-3 片段简单问题、速度敏感几乎不增加压缩法LLM 提炼关键信息复杂问题、主要使用增加一次调用分批处理每批单独回答最后合并超长文档延迟最高query-aware 压缩推荐def compress_context(docs: list, query: str, max_tokens: int2000) -str: 超出token限制时压缩每个文档片段 compressed [] for doc in docs: if len(doc[text]) 500: # 用LLM提炼关键信息 summaryllm.invoke( f从以下文本中提炼与问题{query}相关的关键信息50字以内\n{doc[text]} ) compressed.append(summary.content) else: compressed.append(doc[text]) return\n\n.join(compressed)关键细节compress_context提示词里有{query}——这是query-aware 压缩不是通用摘要。模型会优先保留与用户问题相关的信息而不是文档本身认为重要的信息。效果三种策略加起来超过 32K token 的请求处理成功率从显著提升。七、Prompt 迭代测试方法写完 Prompt 不能靠感觉判断好坏必须建立系统的评测机制。建立 Prompt 版本库用 Git 管理每一版 Prompt提交记录里写清楚改了什么为什么改改后的测试指标变化评测指标忠实度Faithfulness衡量 RAG 系统幻觉的核心指标——模型的回答有多大比例可以在检索文档里找到原文依据。测试样本要覆盖三类文档里有明确答案→ 应该回答正确文档里只有部分答案→ 应该部分回答说明缺失文档里完全没有答案→ 应该拒绝回答光测第一类是不够的很多团队在文档有答案时表现不错但在文档没答案时模型会编造这才是最危险的场景。BadCase 复盘流程测试发现用户问等待期多久模型混入其他产品数据层层深挖检索层召回了多个产品条款片段模型混淆了Prompt 层没有要求分产品回答 → 加了规则后大幅改善引用层引用要求不够细 → 加了必须包含产品名称后彻底解决每个BadCase背后都有原因找到原因加一条规则验证效果。这就是Prompt 工程的核心循环。总结RAG Prompt 设计核心要点要点核心要点本质切断参数知识依赖强制只用检索文档System Prompt角色强约束引用要求拒绝策略User Prompt格式化文档问题放后面约束强度只能和不得比尽量和主要有效得多最有效手段引用要求强制先找原文才能写答案长上下文query-aware 压缩保留与问题相关的信息评测方法版本库忠实度指标 BadCase 复盘检索把对的文档找回来Prompt 决定模型用不用这些文档。两者缺一不可。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章

前端开发 2026/4/12 4:29:02

在超大数据集下 DuckDB 与 MySQL 查询速度对比聊

一、什么是urllib3？ urllib3 是一个用于处理 HTTP 请求和连接池的强大、用户友好的 Python 库。它可以帮助你： 发送各种 HTTP 请求（GET, POST, PUT, DELETE等）。管理连接池，提高网络请求效率。处理重试和重定向。支…

1. 为什么需要A股投资知识图谱在金融投资领域，信息就是财富。但A股市场有4000多家上市公司，每天产生的公告、财报、行业数据等信息量巨大。传统的数据表格和简单查询很难快速发现隐藏在数据背后的关联关系。举个例子，你想知道： …

张开发

前端开发 2026/4/12 3:48:23

ESP32芯片对比

文章目录对比维度ESP32ESP32-C3ESP32-S3ESP32-P4芯片架构Xtensa LX6 双核 32位处理器RISC-V 32位单核处理器Xtensa LX7 双核 32位处理器RISC-V 双核（HP） 单核（LP）大小核架构主频最高 240 MHz最高 160 MHz最高 240 MHzHP核 400 MHz…

张开发

检索很准，模型还在胡说八道？RAG系统的Prompt设计避坑指南

最新文章

PyTorch 2.8环境配置终极教程：解决C盘空间不足与软件安装难题

Qwen3.5-9B实战教程：Gradio WebUI定制+app.py二次开发入门

Python开发效率提升：Miniconda-Python3.10镜像环境管理案例分享

ARM 架构 JuiceFS 性能优化：基于 MLPerf 的实践与调优掳

Intv_AI_MK11 C语言算法实现助手：从零编写排序与搜索代码

解决NVIDIA apex库导入错误：UnencryptedCookieSessionFactoryConfig缺失问题

推荐文章

新概念英语第一册115_Knock knock

新概念英语第一册117_Tommy s breakfast

AI开发-python-langchain框架（--并行流程）慕

解锁多路视频分发：专业虚拟摄像头解决方案深度解析

多元高斯分布：条件分布的实际应用与推导解析

Volatility过时了？试试Lovelymem：图形化内存取证，5分钟提取进程哈希和SID

相关文章

掌握媒体捕获与视频下载的7个实用技巧：猫抓cat-catch浏览器扩展完全指南

Android开发者必备：轻量级二维码解决方案ZXingLite全面解析

MogFace人脸检测在AR应用：移动端人脸关键点实时追踪与特效叠加

解锁AI编程效率：6个Continue插件实战技巧让开发效率提升10倍

[游戏录像引擎] 突破视角限制：League Director重构《英雄联盟》视频创作流程

从RK3562实践出发：AMP架构下的RPMsg核间通信实战解析

分享文章

更多文章

在超大数据集下 DuckDB 与 MySQL 查询速度对比聊

实时口罩检测-通用保姆级教程：更换backbone适配更高清输入

放弃CMSIS-DSP？实测STM32H7优化RNNoise神经网络运算的几种思路与效果对比

Defender-Control技术深度剖析：Windows Defender永久禁用实现原理

CTF PWN新手必看：64位Linux下payload构造的‘堆栈对齐’到底是怎么回事？

GPUStack 在华为昇腾 I A 服务器上的保姆级部署指南不

Linux内核与驱动：9.驱动中的中断机制

RWKV7-1.5B-G1A自动化运维实践：基于Agent的模型服务监控与维护

代码之外周刊（第期）：当技术让一切趋同，我们还剩什么？揽

【大模型工程化评估黄金标准】：20年AI架构师首次公开7大核心指标与落地避坑指南

知识图谱-实战演练：从零构建A股投资图谱

ESP32芯片对比

检索很准，模型还在胡说八道？RAG系统的Prompt设计避坑指南

最新文章

PyTorch 2.8环境配置终极教程：解决C盘空间不足与软件安装难题

Qwen3.5-9B实战教程：Gradio WebUI定制+app.py二次开发入门

Python开发效率提升：Miniconda-Python3.10镜像环境管理案例分享

ARM 架构 JuiceFS 性能优化：基于 MLPerf 的实践与调优掳

Intv_AI_MK11 C语言算法实现助手：从零编写排序与搜索代码

解决NVIDIA apex库导入错误：UnencryptedCookieSessionFactoryConfig缺失问题

推荐文章

新概念英语第一册115_Knock knock

新概念英语第一册117_Tommy s breakfast

AI开发-python-langchain框架（--并行流程 ）慕

解锁多路视频分发：专业虚拟摄像头解决方案深度解析

多元高斯分布：条件分布的实际应用与推导解析

Volatility过时了？试试Lovelymem：图形化内存取证，5分钟提取进程哈希和SID

相关文章

掌握媒体捕获与视频下载的7个实用技巧：猫抓cat-catch浏览器扩展完全指南

Android开发者必备：轻量级二维码解决方案ZXingLite全面解析

MogFace人脸检测在AR应用：移动端人脸关键点实时追踪与特效叠加

解锁AI编程效率：6个Continue插件实战技巧让开发效率提升10倍

[游戏录像引擎] 突破视角限制：League Director重构《英雄联盟》视频创作流程

从RK3562实践出发：AMP架构下的RPMsg核间通信实战解析

分享文章

更多文章

AI开发-python-langchain框架（--并行流程）慕