檢索增強生成 (RAG)

讓 LLM 在回答前先檢索相關文件，再根據這些資料生成答案的技術，可大幅降低幻覺。

檢索增強生成（RAG）是把搜尋系統和大型語言模型結合起來的一種架構。當使用者提問時，系統會先用一個 retriever 從外部知識庫（通常是存放文件 embedding 的向量資料庫）撈出相關段落，把這些段落塞進 prompt 當作 context，LLM 再根據這些資料生成回答。 RAG 之所以重要，是因為 LLM 本身只知道訓練資料裡的東西，遇到冷門領域、最新消息或公司內部資料時很容易胡謅。透過 RAG，你不用重新訓練模型就能讓它使用最新的產品文件、內部 wiki 或合約，而且回答可以附上來源讓人查證。舉個常見例子：客服 chatbot。使用者問「要怎麼取消訂閱？」，系統先把問題轉成 embedding，到向量資料庫搜尋最相關的 3-5 篇說明文章，再連同問題一起丟給 Claude 或 GPT，模型就會根據這些段落寫出自然的回答，甚至能引用原文。目前「跟你的文件對話」這類產品、企業知識助理、需要查 API 文件的 coding agent，幾乎都是 RAG 架構。回答品質很吃檢索那一步的準度——搜得不準，再強的 LLM 也救不回來。延伸閱讀：vector database、embedding、chunking、hybrid search、reranking、context window。