019、知识库数据准备实战:清洗、切分、结构化处理决定了RAG的下限

张开发
2026/4/18 18:52:30 15 分钟阅读

分享文章

019、知识库数据准备实战:清洗、切分、结构化处理决定了RAG的下限
上一篇我们讲的是:RAG系统不能依靠直觉去优化,而要形成自己的评估和迭代闭环。在你真的开始做评估的时候,特别容易出现的情况是:有些题召回不稳当有些题的答案总是差那么一点点意思有些题目你改Prompt都救不回来有些题即使叫回来了,也像是得到了“残缺的证据”这时,人们通常会继续寻找后面链条的原因:还需要重新检索吗?Prompt是否还要更加紧一些?模型还要不要换一个?这些方向当然也值得一看。但是做过了几轮真正的排障之后,你很快就会发现一个更底层的事实:很多RAG质量问题并不是从检索开始的,而是早在“资料进入系统之前”就已经埋下了。也就是说,问题可能不是:不去查你不会回答而是:你开始的时候没有准备好资料这也是很多人心中容易忽视的一个环节。由于“知识库数据准备”没有像Prompt一样直观,也没有模型调用那么突出的存在感,并且不像Agent,Memory这样的概念听起来很高级。因此很多项目一开始都会下意识地认为:文档先放进去向量库里,以后不行再调。短期内这样做也可以让链路先运转起来。但是如果你真的想要把知识库问答做得更稳、更有产品感,而不是仅仅是个Demo的话,很快就会发现:RAG

更多文章