Token vs 字:LLM 定价实际怎么算

LLM 定价是 token、不是字。换算很乱、语言特定、常常意外。把「token」当作大致等于「字」的 builder 例行性低估 API 帐单 30-100%,特别是非英文内容。

Token 实际是什么

Token 是模型处理的文字单位。英文,粗略法则:

1 token ≈ 0.75 个英文字
1 token ≈ 4 个字符
100 个英文字 ≈ 130-150 token

中文、日文、韩文、泰文、其他非拉丁文字,规则不同而且更糟:

1 个中文字符 ≈ 2-3 token
1 个日文字符 ≈ 2-3 token
1 个韩文字符 ≈ 1.5-2 token

100 字中文文章用 200-300 token。同想法用 100 个英文字表达用 ~130 token。同内容,中文成本约 2 倍。

为什么有差距

LLM tokenizer 在严重偏向英文的资料上训练。GPT 跟 Claude 用的 BPE 算法把英文拆成有效率的子词(「strawberry」 → 1-2 token),但把中文拆成个别字符或更小单位(「草莓」 → 4-6 token)。

较新 tokenizer(Claude 3.5+、GPT-5、DeepSeek、Qwen)中文效率改进了,但差距还在。主要在中文上训练的模型(Qwen、DeepSeek)中文 tokenize 比英文优先模型有效率。

定价结构

大部分 API 对 input token(你的 prompt)跟 output token(回应)分开收费:

Input token 是较便宜类别。是你送的。
Output token 是较贵类别。是模型生的。通常比 input 贵 3-5 倍。

Claude 4.5 Sonnet 2026 年:

Input:每百万 token $3
Output:每百万 token $15

GPT-5:

Input:每百万 token $2.50
Output:每百万 token $10

DeepSeek V3:

Input:每百万 token $0.14(便宜很多)
Output:每百万 token $0.28

Input 跟 output 之间的差距是有意的 — 生 token 贵(计算密集)、读便宜。

发布前估成本

处理每天 1000 对话的 chatbot 实用心智模型:

平均对话:5 轮
每轮:~500 input token(历史)+ ~300 output token(回应)
每对话:~2500 input + 1500 output token
每天 1000 对话:2.5M input + 1.5M output
Claude 4.5 Sonnet 每天成本:$3 × 2.5 + $15 × 1.5 = $7.50 + $22.50 = $30/天 = $900/月

同量换成 DeepSeek V3:$4.50 + $4.20 ≈ $9/月。模型选择改变帐单 100 倍。

隐藏成本乘数

对话历史。 每轮重新送所有前轮当 input。10 轮对话每轮都送前面所有轮。Input 成本平方级增长。

系统 prompt。 长系统 prompt 在每个 request 都送。1000-token 系统 prompt × 10000 request = 1000 万 token 只为系统 prompt。

RAG context。 每个 retrieval-augmented query 送捞到的 chunk 当 input。5 chunk × 500 token × 每 query = 显著 input 成本。

Tool use。 Tool description 跟 tool call 结果算 token。有 20 个 tool 定义的复杂 agent 每 request 加 2000+ token。

多模态。 图像跟音频转 token。1024×1024 图像 ~1500 token。每 request 多张图倍增。

怎么准确算 token

用官方 tokenizer:

OpenAI:tiktoken Python library
Anthropic:count_tokens API 或 claude-tokenizer library
Google:google-cloud-aiplatform Python SDK

浏览器快速估算,OpenAI 的 tokenizer.tiktokenizer.com 给即时计数。Anthropic 有类似工具。

准确度重要时绝不用字符数或字数估;用 tokenizer。

成本优化战术

简单任务用较便宜模型。 GPT-5 Mini、Claude Haiku 4.5、Gemini Flash 用前沿模型 1/10 价格做大部分 production 工作。前沿留给真正难的任务。

积极缓存。 Anthropic 的 prompt caching 把重复 input 成本减 90%。系统 prompt 固定的话缓存它。

缩短系统 prompt。 系统 prompt 每个 token 在每个 request 都送。无情 audit。

修剪 context。 只有近期 context 重要的话不要传整个对话历史。摘要较旧的轮。

流式输出加上限。 把 max_output_tokens 设合理上限。长完成贵。

按复杂度路由。 先用小模型;只在信心低时升级到大的。

中文 builder 成本陷阱

你受众是中文,你的 prompt 跟输出大量中文。即使 Claude 4.5 等模型中文 work well,跟英文内容比你付 ~2 倍每字符率。针对中文受众的高量产品考虑:

DeepSeek V3 / Qwen 2.5(中文优化 tokenize、便宜很多)
混合 route(中文 request 给 DeepSeek、英文给 Claude)
高量自架模型

不是理论。每天做 1000 万 token 的中文 SaaS 换 tokenizer 友好模型每月省几千美金。

什么时候不要钻 token

低用量(每月总共 1M token 以下),成本差是噪音。$20/月帐单 vs $5/月帐单不值得优化。聚焦品质。

高风险面对用户任务,模型品质比成本重要。$0.01 成本节省掉用户满意度是糟数学。

实验,用你迭代最快的模型。成本优化给 production,不给原型。

决策框架

Hobby 项目:不要想 token;挑最好模型
Production 规模:仔细算 token;积极优化
中文产品:为成本偏好中文优化模型
混合语言产品:按语言 route 到最佳 tokenizer
合规 / 隐私绑定:自架;token 还是对容量重要

下一步

对你建在上面的模型用官方 tokenizer
监控你每天 input/output token 量;意外藏在意外地方
特别读 prompt caching;最大赢
中文内容,承诺前先在品质上 A/B 测 DeepSeek vs Claude