LLM 定價是 token、不是字。換算很亂、語言特定、常常意外。把「token」當作大致等於「字」的 builder 例行性低估 API 帳單 30-100%,特別是非英文內容。
Token 實際是什麼
Token 是模型處理的文字單位。英文,粗略法則:
- 1 token ≈ 0.75 個英文字
- 1 token ≈ 4 個字符
- 100 個英文字 ≈ 130-150 token
中文、日文、韓文、泰文、其他非拉丁文字,規則不同而且更糟:
- 1 個中文字符 ≈ 2-3 token
- 1 個日文字符 ≈ 2-3 token
- 1 個韓文字符 ≈ 1.5-2 token
100 字中文文章用 200-300 token。同想法用 100 個英文字表達用 ~130 token。同內容,中文成本約 2 倍。
為什麼有差距
LLM tokenizer 在嚴重偏向英文的資料上訓練。GPT 跟 Claude 用的 BPE 演算法把英文拆成有效率的子詞(「strawberry」 → 1-2 token),但把中文拆成個別字符或更小單位(「草莓」 → 4-6 token)。
較新 tokenizer(Claude 3.5+、GPT-5、DeepSeek、Qwen)中文效率改進了,但差距還在。主要在中文上訓練的模型(Qwen、DeepSeek)中文 tokenize 比英文優先模型有效率。
定價結構
大部分 API 對 input token(你的 prompt)跟 output token(回應)分開收費:
- Input token 是較便宜類別。是你送的。
- Output token 是較貴類別。是模型生的。通常比 input 貴 3-5 倍。
Claude 4.5 Sonnet 2026 年:
- Input:每百萬 token $3
- Output:每百萬 token $15
GPT-5:
- Input:每百萬 token $2.50
- Output:每百萬 token $10
DeepSeek V3:
- Input:每百萬 token $0.14(便宜很多)
- Output:每百萬 token $0.28
Input 跟 output 之間的差距是有意的 — 生 token 貴(計算密集)、讀便宜。
發布前估成本
處理每天 1000 對話的 chatbot 實用心智模型:
- 平均對話:5 輪
- 每輪:~500 input token(歷史)+ ~300 output token(回應)
- 每對話:~2500 input + 1500 output token
- 每天 1000 對話:2.5M input + 1.5M output
- Claude 4.5 Sonnet 每天成本:$3 × 2.5 + $15 × 1.5 = $7.50 + $22.50 = $30/天 = $900/月
同量換成 DeepSeek V3:$4.50 + $4.20 ≈ $9/月。模型選擇改變帳單 100 倍。
隱藏成本乘數
對話歷史。 每輪重新送所有前輪當 input。10 輪對話每輪都送前面所有輪。Input 成本平方級增長。
系統 prompt。 長系統 prompt 在每個 request 都送。1000-token 系統 prompt × 10000 request = 1000 萬 token 只為系統 prompt。
RAG context。 每個 retrieval-augmented query 送撈到的 chunk 當 input。5 chunk × 500 token × 每 query = 顯著 input 成本。
Tool use。 Tool description 跟 tool call 結果算 token。有 20 個 tool 定義的複雜 agent 每 request 加 2000+ token。
多模態。 圖像跟音訊轉 token。1024×1024 圖像 ~1500 token。每 request 多張圖倍增。
怎麼準確算 token
用官方 tokenizer:
- OpenAI:
tiktokenPython library - Anthropic:
count_tokensAPI 或claude-tokenizerlibrary - Google:
google-cloud-aiplatformPython SDK
瀏覽器快速估算,OpenAI 的 tokenizer.tiktokenizer.com 給即時計數。Anthropic 有類似工具。
準確度重要時絕不用字符數或字數估;用 tokenizer。
成本優化戰術
簡單任務用較便宜模型。 GPT-5 Mini、Claude Haiku 4.5、Gemini Flash 用前沿模型 1/10 價格做大部分 production 工作。前沿留給真正難的任務。
積極快取。 Anthropic 的 prompt caching 把重複 input 成本減 90%。系統 prompt 固定的話快取它。
縮短系統 prompt。 系統 prompt 每個 token 在每個 request 都送。無情 audit。
修剪 context。 只有近期 context 重要的話不要傳整個對話歷史。摘要較舊的輪。
串流輸出加上限。 把 max_output_tokens 設合理上限。長完成貴。
按複雜度路由。 先用小模型;只在信心低時升級到大的。
中文 builder 成本陷阱
你受眾是中文,你的 prompt 跟輸出大量中文。即使 Claude 4.5 等模型中文 work well,跟英文內容比你付 ~2 倍每字符率。針對中文受眾的高量產品考慮:
- DeepSeek V3 / Qwen 2.5(中文優化 tokenize、便宜很多)
- 混合 route(中文 request 給 DeepSeek、英文給 Claude)
- 高量自架模型
不是理論。每天做 1000 萬 token 的中文 SaaS 換 tokenizer 友善模型每月省幾千美金。
什麼時候不要鑽 token
低用量(每月總共 1M token 以下),成本差是噪音。$20/月帳單 vs $5/月帳單不值得優化。聚焦品質。
高風險面對用戶任務,模型品質比成本重要。$0.01 成本節省掉用戶滿意度是糟數學。
實驗,用你迭代最快的模型。成本優化給 production,不給原型。
決策框架
- Hobby 專案:不要想 token;挑最好模型
- Production 規模:仔細算 token;積極優化
- 中文產品:為成本偏好中文優化模型
- 混合語言產品:按語言 route 到最佳 tokenizer
- 合規 / 隱私綁定:自架;token 還是對容量重要
下一步
- 對你建在上面的模型用官方 tokenizer
- 監控你每天 input/output token 量;意外藏在意外地方
- 特別讀 prompt caching;最大贏
- 中文內容,承諾前先在品質上 A/B 測 DeepSeek vs Claude