上下文視窗 (Context window)

LLM 一次呼叫能處理的 token 上限，包含 system prompt、對話歷史、附加文件。

Context window 是 LLM 一次 forward pass 能讀的 token 上限。你放進去的任何東西——system prompt、對話歷史、檢索到的文件、使用者問題——都算這個上限。超過就必須截斷或總結。現代前緣模型提供 200k（Claude）、1M（Gemini）、甚至 2M token 的 context；老一點或小一點的模型可能只有 4k-32k。它重要的原因是：context 決定模型不用外部記憶就能做哪種工作。4k window 只能放幾頁文字。200k 能放整個 codebase 或一本小書。1M+ 能放幾本書、幾小時會議逐字稿、龐大法律語料。RAG 之所以被發明，部分原因就是早期 window 太小；window 變長之後 RAG 需求變少（但沒有消失）。舉個例子：把 100k token 的 codebase 餵進 Claude，你能問「把 auth 模組從 sessions 改成 JWT」拿到一份跨檔案 edit 計畫。同樣任務在 4k window 下需要 chunking、retrieval、orchestration code。注意：模型有 200k window 不代表它真的能有效用到 200k。「Lost in the middle」是已知問題——模型對開頭和結尾的注意力比中間好。長 context 評估（needle-in-haystack、RULER）測這個。成本也隨輸入大小線性增加。延伸閱讀：KV cache、attention、RAG、lost in the middle。