跳到内容

技术

分词 (Tokenization)

Tokenization

把原始文字切成 token(子词、整词或字符)的过程,这些 token 才是 LLM 实际处理的单位。

登入以收藏
Tokenization 是把文字切成 token——LLM 真正读写的小块。现代 LLM 用 subword tokenizer(BPE、SentencePiece、WordPiece),常见字成为一个 token(「the」、「hello」),罕见字会切成片段(「unbelievable」可能变成「un」+「believ」+「able」)。每个 token 对应一个整数 ID,这才是模型实际看到的东西。 它重要的原因是:token 是计费单位、context window 上限的单位、也是模型实际理解的最小单位。API 计价按 token、context 限制按 token、模型对某语言的表现也跟那个语言的 tokenize 效率有关——中文、日文在多数 tokenizer 上每个字平均要用更多 token,这就是为什么同一篇文章用中文调用 API 比英文贵。 举个例子:「hello world」在 GPT-4 是 2 个 token。「你好世界」依 tokenizer 不同是 4-6 个 token(每个汉字可能切成多个 byte)。这也是 Qwen、DeepSeek 等中文导向模型投资中文 tokenizer 的原因——同样的文章 token 更少、成本更低、塞进 context 也更容易。 你很少手动 tokenize,但理解 token 边界能解释一些怪事:例如 LLM 数一个字里有几个字母会错,是因为模型只看到 token,看不到字符。延伸阅读:BPE、context window、vocabulary、subword。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

分词 (Tokenization) · BuilderWorld