跳到内容

术语★★★★★8 分钟阅读

为什么输入 token 比输出 token 便宜

读取快、生成慢 — 你的 LLM 账单长那样的技术原因。

登入以收藏

你看 2026 年任何一家 LLM API 定价页 — Anthropic、OpenAI、Google,任何一家 — 都会发现输入 token 大约比输出 token 便宜 4-5 倍。Claude Sonnet 4.6 输入收 $3/M、输出收 $15/M。GPT-5 输入 $1.25/M、输出 $10/M。这不是任意的定价策略。这反映 LLM 实际运作的根本不对称。理解了你会做更好的成本决策,不再对账单困惑。

技术上的不对称

LLM 处理你的输入时,是并行做的。N 个输入 token 全部一次过 forward pass。数学运算很重但工作高度可并行化,跨 GPU 和每张 GPU 内计算单元都行。现代推理服务器像 vLLM、TensorRT-LLM 都优化得能尽快处理输入。

LLM 产生输出时,必须一次一个 token。每个生成的 token 取决于前一个。模型产出 token #1,然后加进输入产出 token #2,然后两个一起产出 token #3。这是顺序的。你不能在拿到前一个之前并行生成下一个 token。

结果,粗略数字:

  • 输入:每张 GPU 每秒几万个 token
  • 输出:每张 GPU 每秒 50-200 个 token

那是「每秒 GPU 时间能产生多少 token」上 100-1000 倍的差异。价格差异 4-5 倍其实是对真实成本比的折扣 — 厂商吸收掉一部分这个差距,因为输出 token 也是他们利润所在。

对你的账单意味什么

典型聊天信息大概有 50 个输入 token(问题)和 500 个输出 token(答案)。长 context 提示词有 5 万输入 token(文档)和 1000 个输出 token(摘要)。算一下。

用 Claude Sonnet 4.6($3/M 输入、$15/M 输出):

  • 聊天:50 × $0.000003 + 500 × $0.000015 = $0.0000015 + $0.0075 ≈ $0.0075。输出主导 500 倍。
  • 文档摘要:50,000 × $0.000003 + 1,000 × $0.000015 = $0.15 + $0.015 ≈ $0.165。输入主导 10 倍。

这解释了一个反直觉的观察:你的提示词越长,账单越偏向输入成本 — 即使每个输入 token 便宜。RAG、有长历史的 agent 循环、文档分析,都是输入密集的工作负载。

KV cache 和 prompt caching

还有更微妙的转折:处理输入时,模型对每个 token 计算「KV cache」(key-value cache)条目。这些 cache 条目让模型在生成每个新输出 token 时能注意回较早的 token。KV cache 跟输入长度线性扩展,是输入处理的实际算力成本。

厂商发现如果同一个提示词前缀在多次请求出现(共同 system prompt、被多次使用的长文档),可以 cache KV 状态跳过重做。这就是 prompt caching,给你打到 cache 的输入 token 第二层折扣:

  • Anthropic:cached 输入是新鲜输入的 10%(Sonnet 4.6 是 $0.30/M vs $3/M)
  • OpenAI:cached 输入打 5 折(GPT-5 约 $0.625/M)
  • Gemini:cached 输入类似 75% 折扣

如果你的应用有长的、静态的提示词前缀(system prompt、示例、文档 context),且你带着那个前缀多次调用模型,prompt caching 可以砍掉 75-90% 输入成本。对 RAG 和 agent 应用,这是最大的单一成本优化。

为什么实际上输出贵这么多

一个 token 一个 token 产出输出的瓶颈是 GPU 内存带宽,不是算力。每个新 token 要把整个模型权重从内存读出来才能算下一个 token 的概率。70B 参数模型每 token 是 140GB 内存读(BF16)。现代 GPU 有约 3 TB/s 的内存带宽,所以最佳情况下每 token 约 50ms。

所以更高级的算力硬件帮助输出速度没你期待的多 — 你被内存带宽卡住,不是算力。2024-2026 年输出速度的进步多半来自:

  • Speculative decoding — 用较小模型一次预测多个 token、用大的验证
  • 连续批次 — 多个用户的生成打包到同一张 GPU pass
  • 更大批次大小 — 把内存读取成本摊到更多并发用户
  • 更快内存(HBM3、HBM3e) — 新 GPU、更多带宽

这些都不改变底层不对称:读输入是并行的、写输出是顺序的。

对应用设计的实际含义

**大输入、小输出工作负载成本效率高。**文档分析、分类、提取、摘要 — 这些都打中 LLM 定价的长处。你可以喂 10 万 token 文档、拿回 500 token 答案,不到 $0.50。

**大输出工作负载贵。**生成长篇内容(博客文章、程序、小说)以每元产出价值算更贵,因为你在付慢的那边的钱。在提示词里明确限制输出长度。

**推理模型隐藏输出成本。**GPT-5、Claude 开 extended thinking、DeepSeek R1 — 这些模型在回应前产生隐藏的「思考」token。那些 token 算输出。看起来短的推理答案可能用了 5000 个思考 token 你在付钱。检查 API 响应里的 reasoning_tokens 或类似字段。

**流式不改成本,只改感知。**把回应一个 token 一个 token 流式给用户让它感觉更快,但底层成本和延迟一样。

**异步批次 API 折扣大。**Anthropic 的 Message Batches、OpenAI 的 Batch API,如果你能等到 24 小时内,输入和输出都打 5 折。非实时用例(过夜处理、评估跑、内容生成 pipeline)真的省钱。

这个不对称什么时候没差

低用量(每月 LLM 花费低于 $100) — 不要优化,只管做。Prompt caching 和 batching 的复杂度只在规模化时划算。

延迟关键的面向用户的聊天 — 输出速度主导用户体验,不是成本。先挑快模型(Haiku、GPT-5 Mini、Gemini Flash)再担心成本。

探索和原型 — 模型选择和提示词质量远比成本优化重要。你会花 $10 弄清楚提示词、靠优化省 $0.10。

下一步

  • LLM 成本优化 — 砍账单一半的具体技术
  • Tokens vs words:LLM 定价实际怎么算 — 底层 token 概念
  • Prompt caching — 想用就深入看 caching 机制

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

为什么输入 token 比输出 token 便宜 · BuilderWorld