斷詞 / 分詞 (Tokenization)

把原始文字切成 token（子詞、整詞或字元）的過程，這些 token 才是 LLM 實際處理的單位。

Tokenization 是把文字切成 token——LLM 真正讀寫的小塊。現代 LLM 用 subword tokenizer（BPE、SentencePiece、WordPiece），常見字成為一個 token（「the」、「hello」），罕見字會切成片段（「unbelievable」可能變成「un」+「believ」+「able」）。每個 token 對應一個整數 ID，這才是模型實際看到的東西。它重要的原因是：token 是計費單位、context window 上限的單位、也是模型實際理解的最小單位。API 計價按 token、context 限制按 token、模型對某語言的表現也跟那個語言的 tokenize 效率有關——中文、日文在多數 tokenizer 上每個字平均要用更多 token，這就是為什麼同一篇文章用中文呼叫 API 比英文貴。舉個例子：「hello world」在 GPT-4 是 2 個 token。「你好世界」依 tokenizer 不同是 4-6 個 token（每個漢字可能切成多個 byte）。這也是 Qwen、DeepSeek 等中文導向模型投資中文 tokenizer 的原因——同樣的文章 token 更少、成本更低、塞進 context 也更容易。你很少手動 tokenize，但理解 token 邊界能解釋一些怪事：例如 LLM 數一個字裡有幾個字母會錯，是因為模型只看到 token，看不到字元。延伸閱讀：BPE、context window、vocabulary、subword。