跳到內容

入門★★★★5 分鐘閱讀

什麼是 context window?每個 LLM 都有的隱形天花板

Context window 是模型一次看得到多少文字。視窗變大開啟了長文件時代,但它沒有解決所有問題 — 而且它真的會花錢。

登入以收藏

每個 LLM 都有一個硬性上限,規定一次請求最多能處理多少文字。這個上限叫做 context window。一旦超過,被擠出去的部分模型就看不到 — 對它來說那些字根本不存在。知道你用的模型 window 多大、裡面該放什麼,是「app 正常運作」跟「app 神祕地忘事」的差別。

單位是 token,不是字

Context window 用 token 計算。粗略換算:英文 1,000 tokens ≈ 750 字;中文 1,000 tokens ≈ 500 到 700 個字(依 tokenizer 而定);程式碼通常 1 token ≈ 3-4 個字元。

2026 年常見的 context window 大小:

  • **GPT-5 / Claude Sonnet / Gemini 2.5 Pro:**Claude 200K、Gemini 長 context 模式 1M 以上。200K tokens 大約是一本 500 頁的書。
  • **較小 / 便宜模型:**32K 到 128K(對大多數任務已經夠用)。
  • **本地 / open-weight 7B-13B 模型:**8K 到 32K,用 RoPE scaling 等技巧可以再延伸。

這個視窗要容納所有東西:system prompt、對話歷史、你剛輸入的訊息,加上模型的回應(對,很多 API 把輸出 token 也算進視窗)。

視窗裡面到底裝了什麼

你呼叫 LLM 的時候,prompt 是真的送進去的那一串 token 序列。對 chat app 來說,內容是:

  1. System prompt(產品設定的)
  2. 這個對話之前所有的 user/assistant 訊息
  3. 你剛輸入的訊息
  4. 保留給回應的空間(通常 4K-8K tokens)

總和超過 window 的話,API 直接拒絕請求;chat 產品則通常會默默砍掉最舊的訊息騰位置。這就是為什麼長對話會「失憶」 — 最早那些訊息真的不再被送出去了。

視窗變大不是萬靈丹

幾年前,把整本書塞進 prompt 聽起來像科幻。2026 年 Gemini Pro 能吃 1-2M tokens,Claude extended 模式可達 1M。但長 context 不是白吃的。

**品質隨距離下降。**模型在長 context 中,擅長找最前面或最後面的資訊,中間區域比較差(俗稱 “lost in the middle”)。如果你貼了 500K tokens 的文件,問題的答案剛好在中間,準確率明顯掉。

**很貴。**現代 API 按 input token 計費。一次 200K tokens 的 Claude Sonnet 呼叫可以超過 $1,每一輪對話都要付這整段 prompt 的錢,除非用 prompt caching。對流量高的 app 來說,這筆錢可能比運算和儲存加起來還多。

**很慢。**200K tokens 的 prompt 光處理就要 15-30 秒才開始吐第一個 token。互動 UI 受不了這個。

**RAG 常常贏長 context。**只把相關的 5,000 tokens(搜出來的)放進視窗,通常比硬塞 500,000 tokens 答得好。RAG 系統的存在,正是因為長 context 對大多數檢索問題不是正解。

怎麼規劃 context 預算

設計 LLM 功能時,把 context 預算當成伺服器記憶體來規劃:

  • **保留輸出空間。**決定模型最長能回多少字,乘 1.2 安全係數。
  • **截斷對話歷史。**舊訊息超過某個門檻就摘要或砍掉。
  • **只放需要的東西。**用 RAG 取最相關的 3-10 個片段,不要整個知識庫塞進去。
  • **用 prompt caching。**Anthropic 和 OpenAI 都有 prompt caching,重複 prefix 收原價 10%。長 system prompt + 共用文件搭這個,直接省 5-10 倍成本。

什麼時候長 context 才是正解

長 context 不是錯,有些場合贏 RAG:

  • 文件夠小、塞得下,而問題需要整份文件(例如「總結這份合約」)
  • 切塊會失去精度(法律、醫學需要跨段落推理)
  • One-off 查詢,不想維護向量庫
  • 需要對整段輸入做可追蹤的推理 — RAG 有可能默默漏掉關鍵段落

什麼時候不要靠大視窗

  • **針對同一知識庫的重複查詢。**RAG + caching 又便宜又快。
  • **延遲敏感的 UI。**講求即時 stream 的產品,prompt 要短。
  • **想要把 500 份文件全部丟進去的場合。**不要。先搜尋、再用 top-K 做 prompt。

延伸閱讀

  • 什麼是 token
  • 什麼是 RAG
  • Tokens vs 字數:LLM 計價怎麼算
  • LoRA vs fine-tuning vs RAG:哪個解哪種問題
  • 為什麼 input token 比 output token 便宜

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

什麼是 context window?每個 LLM 都有的隱形天花板 · BuilderWorld