检索增强生成 (RAG)

让 LLM 在回答前先检索相关文档，再根据这些资料生成答案的技术，可大幅降低幻觉。

检索增强生成（RAG）是把搜索系统和大语言模型结合起来的一种架构。当用户提问时，系统会先用一个 retriever 从外部知识库（通常是存放文档 embedding 的向量数据库）取出相关段落，把这些段落塞进 prompt 作为 context，LLM 再根据这些资料生成回答。 RAG 重要的原因在于：LLM 本身只知道训练数据里的内容，遇到冷门领域、最新资讯或公司内部资料时很容易胡编。通过 RAG，你不用重新训练模型，就能让它使用最新的产品文档、内部 wiki 或合同，而且回答可以附上来源便于核查。举个常见例子：客服 chatbot。用户问"怎么取消订阅？"，系统先把问题转成 embedding，到向量数据库搜出最相关的 3-5 篇帮助文章，再连同问题一起送给 Claude 或 GPT，模型就会基于这些段落写出自然的回答，还能引用原文。目前"和你的文档对话"这类产品、企业知识助手、需要查 API 文档的 coding agent，基本都是 RAG 架构。回答质量很依赖检索那一步——搜得不准，再强的 LLM 也救不回来。延伸阅读：vector database、embedding、chunking、hybrid search、reranking、context window。