分词 (Tokenization)

把原始文字切成 token（子词、整词或字符）的过程，这些 token 才是 LLM 实际处理的单位。

Tokenization 是把文字切成 token——LLM 真正读写的小块。现代 LLM 用 subword tokenizer（BPE、SentencePiece、WordPiece），常见字成为一个 token（「the」、「hello」），罕见字会切成片段（「unbelievable」可能变成「un」+「believ」+「able」）。每个 token 对应一个整数 ID，这才是模型实际看到的东西。它重要的原因是：token 是计费单位、context window 上限的单位、也是模型实际理解的最小单位。API 计价按 token、context 限制按 token、模型对某语言的表现也跟那个语言的 tokenize 效率有关——中文、日文在多数 tokenizer 上每个字平均要用更多 token，这就是为什么同一篇文章用中文调用 API 比英文贵。举个例子：「hello world」在 GPT-4 是 2 个 token。「你好世界」依 tokenizer 不同是 4-6 个 token（每个汉字可能切成多个 byte）。这也是 Qwen、DeepSeek 等中文导向模型投资中文 tokenizer 的原因——同样的文章 token 更少、成本更低、塞进 context 也更容易。你很少手动 tokenize，但理解 token 边界能解释一些怪事：例如 LLM 数一个字里有几个字母会错，是因为模型只看到 token，看不到字符。延伸阅读：BPE、context window、vocabulary、subword。