什麼是 context window?每個 LLM 都有的隱形天花板

每個 LLM 都有一個硬性上限,規定一次請求最多能處理多少文字。這個上限叫做 context window。一旦超過,被擠出去的部分模型就看不到 — 對它來說那些字根本不存在。知道你用的模型 window 多大、裡面該放什麼,是「app 正常運作」跟「app 神祕地忘事」的差別。

單位是 token,不是字

Context window 用 token 計算。粗略換算:英文 1,000 tokens ≈ 750 字;中文 1,000 tokens ≈ 500 到 700 個字(依 tokenizer 而定);程式碼通常 1 token ≈ 3-4 個字元。

2026 年常見的 context window 大小:

**GPT-5 / Claude Sonnet / Gemini 2.5 Pro:**Claude 200K、Gemini 長 context 模式 1M 以上。200K tokens 大約是一本 500 頁的書。
**較小 / 便宜模型:**32K 到 128K(對大多數任務已經夠用)。
**本地 / open-weight 7B-13B 模型:**8K 到 32K,用 RoPE scaling 等技巧可以再延伸。

這個視窗要容納所有東西:system prompt、對話歷史、你剛輸入的訊息,加上模型的回應(對,很多 API 把輸出 token 也算進視窗)。

你呼叫 LLM 的時候,prompt 是真的送進去的那一串 token 序列。對 chat app 來說,內容是:

總和超過 window 的話,API 直接拒絕請求;chat 產品則通常會默默砍掉最舊的訊息騰位置。這就是為什麼長對話會「失憶」 — 最早那些訊息真的不再被送出去了。

幾年前,把整本書塞進 prompt 聽起來像科幻。2026 年 Gemini Pro 能吃 1-2M tokens,Claude extended 模式可達 1M。但長 context 不是白吃的。

**品質隨距離下降。**模型在長 context 中,擅長找最前面或最後面的資訊,中間區域比較差(俗稱 “lost in the middle”)。如果你貼了 500K tokens 的文件,問題的答案剛好在中間,準確率明顯掉。

**很貴。**現代 API 按 input token 計費。一次 200K tokens 的 Claude Sonnet 呼叫可以超過 $1,每一輪對話都要付這整段 prompt 的錢,除非用 prompt caching。對流量高的 app 來說,這筆錢可能比運算和儲存加起來還多。

**很慢。**200K tokens 的 prompt 光處理就要 15-30 秒才開始吐第一個 token。互動 UI 受不了這個。

**RAG 常常贏長 context。**只把相關的 5,000 tokens(搜出來的)放進視窗,通常比硬塞 500,000 tokens 答得好。RAG 系統的存在,正是因為長 context 對大多數檢索問題不是正解。

設計 LLM 功能時,把 context 預算當成伺服器記憶體來規劃:

**保留輸出空間。**決定模型最長能回多少字,乘 1.2 安全係數。
**截斷對話歷史。**舊訊息超過某個門檻就摘要或砍掉。
**只放需要的東西。**用 RAG 取最相關的 3-10 個片段,不要整個知識庫塞進去。
**用 prompt caching。**Anthropic 和 OpenAI 都有 prompt caching,重複 prefix 收原價 10%。長 system prompt + 共用文件搭這個,直接省 5-10 倍成本。

長 context 不是錯,有些場合贏 RAG: