LLM 定价是 token、不是字。换算很乱、语言特定、常常意外。把「token」当作大致等于「字」的 builder 例行性低估 API 帐单 30-100%,特别是非英文内容。
Token 实际是什么
Token 是模型处理的文字单位。英文,粗略法则:
- 1 token ≈ 0.75 个英文字
- 1 token ≈ 4 个字符
- 100 个英文字 ≈ 130-150 token
中文、日文、韩文、泰文、其他非拉丁文字,规则不同而且更糟:
- 1 个中文字符 ≈ 2-3 token
- 1 个日文字符 ≈ 2-3 token
- 1 个韩文字符 ≈ 1.5-2 token
100 字中文文章用 200-300 token。同想法用 100 个英文字表达用 ~130 token。同内容,中文成本约 2 倍。
为什么有差距
LLM tokenizer 在严重偏向英文的资料上训练。GPT 跟 Claude 用的 BPE 算法把英文拆成有效率的子词(「strawberry」 → 1-2 token),但把中文拆成个别字符或更小单位(「草莓」 → 4-6 token)。
较新 tokenizer(Claude 3.5+、GPT-5、DeepSeek、Qwen)中文效率改进了,但差距还在。主要在中文上训练的模型(Qwen、DeepSeek)中文 tokenize 比英文优先模型有效率。
定价结构
大部分 API 对 input token(你的 prompt)跟 output token(回应)分开收费:
- Input token 是较便宜类别。是你送的。
- Output token 是较贵类别。是模型生的。通常比 input 贵 3-5 倍。
Claude 4.5 Sonnet 2026 年:
- Input:每百万 token $3
- Output:每百万 token $15
GPT-5:
- Input:每百万 token $2.50
- Output:每百万 token $10
DeepSeek V3:
- Input:每百万 token $0.14(便宜很多)
- Output:每百万 token $0.28
Input 跟 output 之间的差距是有意的 — 生 token 贵(计算密集)、读便宜。
发布前估成本
处理每天 1000 对话的 chatbot 实用心智模型:
- 平均对话:5 轮
- 每轮:~500 input token(历史)+ ~300 output token(回应)
- 每对话:~2500 input + 1500 output token
- 每天 1000 对话:2.5M input + 1.5M output
- Claude 4.5 Sonnet 每天成本:$3 × 2.5 + $15 × 1.5 = $7.50 + $22.50 = $30/天 = $900/月
同量换成 DeepSeek V3:$4.50 + $4.20 ≈ $9/月。模型选择改变帐单 100 倍。
隐藏成本乘数
对话历史。 每轮重新送所有前轮当 input。10 轮对话每轮都送前面所有轮。Input 成本平方级增长。
系统 prompt。 长系统 prompt 在每个 request 都送。1000-token 系统 prompt × 10000 request = 1000 万 token 只为系统 prompt。
RAG context。 每个 retrieval-augmented query 送捞到的 chunk 当 input。5 chunk × 500 token × 每 query = 显著 input 成本。
Tool use。 Tool description 跟 tool call 结果算 token。有 20 个 tool 定义的复杂 agent 每 request 加 2000+ token。
多模态。 图像跟音频转 token。1024×1024 图像 ~1500 token。每 request 多张图倍增。
怎么准确算 token
用官方 tokenizer:
- OpenAI:
tiktokenPython library - Anthropic:
count_tokensAPI 或claude-tokenizerlibrary - Google:
google-cloud-aiplatformPython SDK
浏览器快速估算,OpenAI 的 tokenizer.tiktokenizer.com 给即时计数。Anthropic 有类似工具。
准确度重要时绝不用字符数或字数估;用 tokenizer。
成本优化战术
简单任务用较便宜模型。 GPT-5 Mini、Claude Haiku 4.5、Gemini Flash 用前沿模型 1/10 价格做大部分 production 工作。前沿留给真正难的任务。
积极缓存。 Anthropic 的 prompt caching 把重复 input 成本减 90%。系统 prompt 固定的话缓存它。
缩短系统 prompt。 系统 prompt 每个 token 在每个 request 都送。无情 audit。
修剪 context。 只有近期 context 重要的话不要传整个对话历史。摘要较旧的轮。
流式输出加上限。 把 max_output_tokens 设合理上限。长完成贵。
按复杂度路由。 先用小模型;只在信心低时升级到大的。
中文 builder 成本陷阱
你受众是中文,你的 prompt 跟输出大量中文。即使 Claude 4.5 等模型中文 work well,跟英文内容比你付 ~2 倍每字符率。针对中文受众的高量产品考虑:
- DeepSeek V3 / Qwen 2.5(中文优化 tokenize、便宜很多)
- 混合 route(中文 request 给 DeepSeek、英文给 Claude)
- 高量自架模型
不是理论。每天做 1000 万 token 的中文 SaaS 换 tokenizer 友好模型每月省几千美金。
什么时候不要钻 token
低用量(每月总共 1M token 以下),成本差是噪音。$20/月帐单 vs $5/月帐单不值得优化。聚焦品质。
高风险面对用户任务,模型品质比成本重要。$0.01 成本节省掉用户满意度是糟数学。
实验,用你迭代最快的模型。成本优化给 production,不给原型。
决策框架
- Hobby 项目:不要想 token;挑最好模型
- Production 规模:仔细算 token;积极优化
- 中文产品:为成本偏好中文优化模型
- 混合语言产品:按语言 route 到最佳 tokenizer
- 合规 / 隐私绑定:自架;token 还是对容量重要
下一步
- 对你建在上面的模型用官方 tokenizer
- 监控你每天 input/output token 量;意外藏在意外地方
- 特别读 prompt caching;最大赢
- 中文内容,承诺前先在品质上 A/B 测 DeepSeek vs Claude