跳到內容

技術

斷詞 / 分詞 (Tokenization)

Tokenization

把原始文字切成 token(子詞、整詞或字元)的過程,這些 token 才是 LLM 實際處理的單位。

登入以收藏
Tokenization 是把文字切成 token——LLM 真正讀寫的小塊。現代 LLM 用 subword tokenizer(BPE、SentencePiece、WordPiece),常見字成為一個 token(「the」、「hello」),罕見字會切成片段(「unbelievable」可能變成「un」+「believ」+「able」)。每個 token 對應一個整數 ID,這才是模型實際看到的東西。 它重要的原因是:token 是計費單位、context window 上限的單位、也是模型實際理解的最小單位。API 計價按 token、context 限制按 token、模型對某語言的表現也跟那個語言的 tokenize 效率有關——中文、日文在多數 tokenizer 上每個字平均要用更多 token,這就是為什麼同一篇文章用中文呼叫 API 比英文貴。 舉個例子:「hello world」在 GPT-4 是 2 個 token。「你好世界」依 tokenizer 不同是 4-6 個 token(每個漢字可能切成多個 byte)。這也是 Qwen、DeepSeek 等中文導向模型投資中文 tokenizer 的原因——同樣的文章 token 更少、成本更低、塞進 context 也更容易。 你很少手動 tokenize,但理解 token 邊界能解釋一些怪事:例如 LLM 數一個字裡有幾個字母會錯,是因為模型只看到 token,看不到字元。延伸閱讀:BPE、context window、vocabulary、subword。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more