上下文窗口 (Context window)

LLM 一次调用能处理的 token 上限，包含 system prompt、对话历史、附加文档。

Context window 是 LLM 一次 forward pass 能读的 token 上限。你放进去的任何东西——system prompt、对话历史、检索到的文档、用户问题——都算这个上限。超过就必须截断或总结。现代前沿模型提供 200k（Claude）、1M（Gemini）、甚至 2M token 的 context；老一点或小一点的模型可能只有 4k-32k。它重要的原因是：context 决定模型不用外部记忆就能做哪种工作。4k window 只能放几页文字。200k 能放整个 codebase 或一本小书。1M+ 能放几本书、几小时会议逐字稿、庞大法律语料。RAG 之所以被发明，部分原因就是早期 window 太小；window 变长之后 RAG 需求变少（但没有消失）。举个例子：把 100k token 的 codebase 喂进 Claude，你能问「把 auth 模块从 sessions 改成 JWT」拿到一份跨文件 edit 计划。同样任务在 4k window 下需要 chunking、retrieval、orchestration code。注意：模型有 200k window 不代表它真的能有效用到 200k。「Lost in the middle」是已知问题——模型对开头和结尾的注意力比中间好。长 context 评估（needle-in-haystack、RULER）测这个。成本也随输入大小线性增加。延伸阅读：KV cache、attention、RAG、lost in the middle。