跳到內容

術語★★★★★8 分鐘閱讀

為什麼輸入 token 比輸出 token 便宜

讀取快、生成慢 — 你的 LLM 帳單長那樣的技術原因。

登入以收藏

你看 2026 年任何一家 LLM API 定價頁 — Anthropic、OpenAI、Google,任何一家 — 都會發現輸入 token 大約比輸出 token 便宜 4-5 倍。Claude Sonnet 4.6 輸入收 $3/M、輸出收 $15/M。GPT-5 輸入 $1.25/M、輸出 $10/M。這不是任意的定價策略。這反映 LLM 實際運作的根本不對稱。理解了你會做更好的成本決策,不再對帳單困惑。

技術上的不對稱

LLM 處理你的輸入時,是並行做的。N 個輸入 token 全部一次過 forward pass。數學運算很重但工作高度可並行化,跨 GPU 和每張 GPU 內計算單元都行。現代推論伺服器像 vLLM、TensorRT-LLM 都優化得能盡快處理輸入。

LLM 產生輸出時,必須一次一個 token。每個生成的 token 取決於前一個。模型產出 token #1,然後加進輸入產出 token #2,然後兩個一起產出 token #3。這是序列的。你不能在拿到前一個之前並行生成下一個 token。

結果,粗略數字:

  • 輸入:每張 GPU 每秒幾萬個 token
  • 輸出:每張 GPU 每秒 50-200 個 token

那是「每秒 GPU 時間能產生多少 token」上 100-1000 倍的差異。價格差異 4-5 倍其實是對真實成本比的折扣 — 廠商吸收掉一部分這個差距,因為輸出 token 也是他們利潤所在。

對你的帳單意味什麼

典型聊天訊息大概有 50 個輸入 token(問題)和 500 個輸出 token(答案)。長 context 提示詞有 5 萬輸入 token(文件)和 1000 個輸出 token(摘要)。算一下。

用 Claude Sonnet 4.6($3/M 輸入、$15/M 輸出):

  • 聊天:50 × $0.000003 + 500 × $0.000015 = $0.0000015 + $0.0075 ≈ $0.0075。輸出主導 500 倍。
  • 文件摘要:50,000 × $0.000003 + 1,000 × $0.000015 = $0.15 + $0.015 ≈ $0.165。輸入主導 10 倍。

這解釋了一個違反直覺的觀察:你的提示詞越長,帳單越偏向輸入成本 — 即使每個輸入 token 便宜。RAG、有長歷史的 agent 迴圈、文件分析,都是輸入密集的工作負載。

KV cache 和 prompt caching

還有更微妙的轉折:處理輸入時,模型對每個 token 計算「KV cache」(key-value cache)條目。這些 cache 條目讓模型在生成每個新輸出 token 時能注意回較早的 token。KV cache 跟輸入長度線性擴展,是輸入處理的實際算力成本。

廠商發現如果同一個提示詞前綴在多次請求出現(共同 system prompt、被多次使用的長文件),可以 cache KV 狀態跳過重做。這就是 prompt caching,給你打到 cache 的輸入 token 第二層折扣:

  • Anthropic:cached 輸入是新鮮輸入的 10%(Sonnet 4.6 是 $0.30/M vs $3/M)
  • OpenAI:cached 輸入打 5 折(GPT-5 約 $0.625/M)
  • Gemini:cached 輸入類似 75% 折扣

如果你的應用有長的、靜態的提示詞前綴(system prompt、範例、文件 context),且你帶著那個前綴多次呼叫模型,prompt caching 可以砍掉 75-90% 輸入成本。對 RAG 和 agent 應用,這是最大的單一成本優化。

為什麼實際上輸出貴這麼多

一個 token 一個 token 產出輸出的瓶頸是 GPU 記憶體頻寬,不是算力。每個新 token 要把整個模型權重從記憶體讀出來才能算下一個 token 的機率。70B 參數模型每 token 是 140GB 記憶體讀(BF16)。現代 GPU 有約 3 TB/s 的記憶體頻寬,所以最佳情況下每 token 約 50ms。

所以更高級的算力硬體幫助輸出速度沒你期待的多 — 你被記憶體頻寬卡住,不是算力。2024-2026 年輸出速度的進步多半來自:

  • Speculative decoding — 用較小模型一次預測多個 token、用大的驗證
  • 連續批次 — 多個使用者的生成打包到同一張 GPU pass
  • 更大批次大小 — 把記憶體讀取成本攤到更多並發使用者
  • 更快記憶體(HBM3、HBM3e) — 新 GPU、更多頻寬

這些都不改變底層不對稱:讀輸入是並行的、寫輸出是序列的。

對應用設計的實際意涵

**大輸入、小輸出工作負載成本效率高。**文件分析、分類、擷取、摘要 — 這些都打中 LLM 定價的長處。你可以餵 10 萬 token 文件、拿回 500 token 答案,不到 $0.50。

**大輸出工作負載貴。**生成長篇內容(部落格文章、程式、小說)以每元產出價值算更貴,因為你在付慢的那邊的錢。在提示詞裡明確限制輸出長度。

**推理模型隱藏輸出成本。**GPT-5、Claude 開 extended thinking、DeepSeek R1 — 這些模型在回應前產生隱藏的「思考」token。那些 token 算輸出。看起來短的推理答案可能用了 5000 個思考 token 你在付錢。檢查 API 回應裡的 reasoning_tokens 或類似欄位。

**串流不改成本,只改感知。**把回應一個 token 一個 token 串流給使用者讓它感覺更快,但底層成本和延遲一樣。

**非同步批次 API 折扣大。**Anthropic 的 Message Batches、OpenAI 的 Batch API,如果你能等到 24 小時內,輸入和輸出都打 5 折。非即時用例(過夜處理、評估跑、內容生成 pipeline)真的省錢。

這個不對稱什麼時候沒差

低用量(每月 LLM 花費低於 $100) — 不要優化,只管做。Prompt caching 和 batching 的複雜度只在規模化時划算。

延遲關鍵的面向使用者的聊天 — 輸出速度主導使用者體驗,不是成本。先挑快模型(Haiku、GPT-5 Mini、Gemini Flash)再擔心成本。

探索和原型 — 模型選擇和提示詞品質遠比成本優化重要。你會花 $10 弄清楚提示詞、靠優化省 $0.10。

下一步

  • LLM 成本優化 — 砍帳單一半的具體技術
  • Tokens vs words:LLM 定價實際怎麼算 — 底層 token 概念
  • Prompt caching — 想用就深入看 caching 機制

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more