Token vs 字:LLM 定價實際怎麼算

LLM 定價是 token、不是字。換算很亂、語言特定、常常意外。把「token」當作大致等於「字」的 builder 例行性低估 API 帳單 30-100%,特別是非英文內容。

Token 實際是什麼

Token 是模型處理的文字單位。英文,粗略法則:

1 token ≈ 0.75 個英文字
1 token ≈ 4 個字符
100 個英文字 ≈ 130-150 token

中文、日文、韓文、泰文、其他非拉丁文字,規則不同而且更糟:

1 個中文字符 ≈ 2-3 token
1 個日文字符 ≈ 2-3 token
1 個韓文字符 ≈ 1.5-2 token

100 字中文文章用 200-300 token。同想法用 100 個英文字表達用 ~130 token。同內容,中文成本約 2 倍。

為什麼有差距

LLM tokenizer 在嚴重偏向英文的資料上訓練。GPT 跟 Claude 用的 BPE 演算法把英文拆成有效率的子詞(「strawberry」 → 1-2 token),但把中文拆成個別字符或更小單位(「草莓」 → 4-6 token)。

較新 tokenizer(Claude 3.5+、GPT-5、DeepSeek、Qwen)中文效率改進了,但差距還在。主要在中文上訓練的模型(Qwen、DeepSeek)中文 tokenize 比英文優先模型有效率。

定價結構

大部分 API 對 input token(你的 prompt)跟 output token(回應)分開收費:

Input token 是較便宜類別。是你送的。
Output token 是較貴類別。是模型生的。通常比 input 貴 3-5 倍。

Claude 4.5 Sonnet 2026 年:

Input:每百萬 token $3
Output:每百萬 token $15

GPT-5:

Input:每百萬 token $2.50
Output:每百萬 token $10

DeepSeek V3:

Input:每百萬 token $0.14(便宜很多)
Output:每百萬 token $0.28

Input 跟 output 之間的差距是有意的 — 生 token 貴(計算密集)、讀便宜。

發布前估成本

處理每天 1000 對話的 chatbot 實用心智模型:

平均對話:5 輪
每輪:~500 input token(歷史)+ ~300 output token(回應)
每對話:~2500 input + 1500 output token
每天 1000 對話:2.5M input + 1.5M output
Claude 4.5 Sonnet 每天成本:$3 × 2.5 + $15 × 1.5 = $7.50 + $22.50 = $30/天 = $900/月

同量換成 DeepSeek V3:$4.50 + $4.20 ≈ $9/月。模型選擇改變帳單 100 倍。

隱藏成本乘數

對話歷史。 每輪重新送所有前輪當 input。10 輪對話每輪都送前面所有輪。Input 成本平方級增長。

系統 prompt。 長系統 prompt 在每個 request 都送。1000-token 系統 prompt × 10000 request = 1000 萬 token 只為系統 prompt。

RAG context。 每個 retrieval-augmented query 送撈到的 chunk 當 input。5 chunk × 500 token × 每 query = 顯著 input 成本。

Tool use。 Tool description 跟 tool call 結果算 token。有 20 個 tool 定義的複雜 agent 每 request 加 2000+ token。

多模態。 圖像跟音訊轉 token。1024×1024 圖像 ~1500 token。每 request 多張圖倍增。

怎麼準確算 token

用官方 tokenizer:

OpenAI:tiktoken Python library
Anthropic:count_tokens API 或 claude-tokenizer library
Google:google-cloud-aiplatform Python SDK

瀏覽器快速估算,OpenAI 的 tokenizer.tiktokenizer.com 給即時計數。Anthropic 有類似工具。

準確度重要時絕不用字符數或字數估;用 tokenizer。

成本優化戰術

簡單任務用較便宜模型。 GPT-5 Mini、Claude Haiku 4.5、Gemini Flash 用前沿模型 1/10 價格做大部分 production 工作。前沿留給真正難的任務。

積極快取。 Anthropic 的 prompt caching 把重複 input 成本減 90%。系統 prompt 固定的話快取它。

縮短系統 prompt。 系統 prompt 每個 token 在每個 request 都送。無情 audit。

修剪 context。 只有近期 context 重要的話不要傳整個對話歷史。摘要較舊的輪。

串流輸出加上限。 把 max_output_tokens 設合理上限。長完成貴。

按複雜度路由。 先用小模型;只在信心低時升級到大的。

中文 builder 成本陷阱

你受眾是中文,你的 prompt 跟輸出大量中文。即使 Claude 4.5 等模型中文 work well,跟英文內容比你付 ~2 倍每字符率。針對中文受眾的高量產品考慮:

DeepSeek V3 / Qwen 2.5(中文優化 tokenize、便宜很多)
混合 route(中文 request 給 DeepSeek、英文給 Claude)
高量自架模型

不是理論。每天做 1000 萬 token 的中文 SaaS 換 tokenizer 友善模型每月省幾千美金。

什麼時候不要鑽 token

低用量(每月總共 1M token 以下),成本差是噪音。$20/月帳單 vs $5/月帳單不值得優化。聚焦品質。

高風險面對用戶任務,模型品質比成本重要。$0.01 成本節省掉用戶滿意度是糟數學。

實驗,用你迭代最快的模型。成本優化給 production,不給原型。

決策框架

Hobby 專案:不要想 token;挑最好模型
Production 規模:仔細算 token;積極優化
中文產品:為成本偏好中文優化模型
混合語言產品:按語言 route 到最佳 tokenizer
合規 / 隱私綁定:自架;token 還是對容量重要

下一步

對你建在上面的模型用官方 tokenizer
監控你每天 input/output token 量;意外藏在意外地方
特別讀 prompt caching;最大贏
中文內容,承諾前先在品質上 A/B 測 DeepSeek vs Claude