跳到内容

其他

上下文窗口 (Context window)

Context window

LLM 一次调用能处理的 token 上限,包含 system prompt、对话历史、附加文档。

登入以收藏
Context window 是 LLM 一次 forward pass 能读的 token 上限。你放进去的任何东西——system prompt、对话历史、检索到的文档、用户问题——都算这个上限。超过就必须截断或总结。现代前沿模型提供 200k(Claude)、1M(Gemini)、甚至 2M token 的 context;老一点或小一点的模型可能只有 4k-32k。 它重要的原因是:context 决定模型不用外部记忆就能做哪种工作。4k window 只能放几页文字。200k 能放整个 codebase 或一本小书。1M+ 能放几本书、几小时会议逐字稿、庞大法律语料。RAG 之所以被发明,部分原因就是早期 window 太小;window 变长之后 RAG 需求变少(但没有消失)。 举个例子:把 100k token 的 codebase 喂进 Claude,你能问「把 auth 模块从 sessions 改成 JWT」拿到一份跨文件 edit 计划。同样任务在 4k window 下需要 chunking、retrieval、orchestration code。 注意:模型有 200k window 不代表它真的能有效用到 200k。「Lost in the middle」是已知问题——模型对开头和结尾的注意力比中间好。长 context 评估(needle-in-haystack、RULER)测这个。成本也随输入大小线性增加。延伸阅读:KV cache、attention、RAG、lost in the middle。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more