如果你的工作涉及嚴肅的中文輸出 — 繁體或簡體 — 你會很快發現前沿 LLM 表現不一。有些產出的中文像母語者寫的,有些像翻譯。2026 年的局勢變了:中文 open-weight 模型(Qwen、DeepSeek、Yi)現在跟前沿閉源真的有競爭力,母語場景常常更強。這篇按任務告訴你怎麼挑。
一句話總結
2026 年中文任務的實用排序:
- Qwen 3(阿里) — 整體中文最強,zh-CN 跟 zh-TW 都行。開源權重。
- DeepSeek V3 / R1 — 品質頂尖、成本超低、推理強。開源權重。
- Claude Sonnet — 閉源前沿裡細膩中文最好,zh-TW 特別強。
- Gemini 2.5 Pro — 中文強,長 context 表現好。閉源。
- GPT-5 — 中文還行但不出眾;zh-CN 比 zh-TW 好。
- Yi(零一萬物) — 有競爭力的中文 open-weight,模型線較窄。
- Llama 4 — 多語但中文不是強項,落後 Qwen / DeepSeek。
該測什麼
中文母語感不是一個技能。有意義的五個子測試:
**語氣自然。**讀起來像母語者寫的還是機器翻譯?寫一段隨意的文字、請母語者標出哪邊彆扭。
成語使用。「畫蛇添足」「為德不卒」 — 模型用對了還是硬塞?
**zh-TW vs zh-CN 風格。**模型挑「軟體」還是「软件」?「程式」還是「程序」?「影片」還是「视频」?地區用詞差異。
**中文推理。**用中文問數學、邏輯、分析,得到一樣清楚的中文回答。某些模型在中文輸入下會默默變弱。
**混合輸入。**真實中文夾雜英文品牌名、技術詞、程式碼。模型應該保留自然該英文的部分,不要過度翻譯。
各任務最佳選
zh-TW 母語寫作(台灣風格)
- 最佳:Qwen 3、Claude Sonnet
- 避免:GPT-5(會漂到大陸用詞);Llama 4(翻譯感)
zh-CN 母語寫作(大陸風格)
- 最佳:Qwen 3、DeepSeek V3
- 閉源替代:Claude Sonnet、Gemini 2.5 Pro
中翻英
- 最佳:Claude Sonnet 細膩;DeepSeek 省錢
- 避免:GPT-4o-mini(有時失準)
英翻中
- 最佳:Qwen 3(明確指定 zh-TW 或 zh-CN)
- 閉源:Claude Sonnet(prompt 裡指定地區)
中文 RAG / QA
- 最佳 embedding:BGE-M3、Cohere multilingual v3
- 最佳生成:Qwen 3 或 Claude Sonnet 對檢索 chunk
- 避免:中文為主語料用 OpenAI embedding(明顯比 BGE 差)
中文 coding / 註解
- 最佳:Claude Sonnet、Qwen Coder、DeepSeek
- 註解:多數模型預設英文,prompt 裡指定
給終端使用者的中文 chatbot
- 最佳:成本敏感用 Qwen 3,品質優先用 Claude Sonnet
- 即時 / 快:Gemini Flash、Claude Haiku
zh-TW vs zh-CN 陷阱
持續惱人的問題:多數模型即使收到 zh-TW 輸入,輸出仍預設 zh-CN 風格。你會拿到「软件、视频、程序」即使 prompt 用了「軟體、影片、程式」。
緩解:
- System prompt 寫死。「永遠用繁體中文(台灣風格)回答。用『軟體』不要『软件』、『影片』不要『视频』、『預設』不要『默认』。」
- **提供對照表。**Prompt 裡放一份偏好用詞短表幫很大。
- **zh-TW 場景挑 Claude Sonnet。**我們的經驗它對地區一致性最好。
- Qwen 3 / DeepSeek 設
system: "你是繁體中文助理,使用台灣慣用詞"並驗證輸出。 - **後處理。**簡單的 find-replace 字典能抓到最常見的漂移。
中文工作的成本取捨
中文任務「品質 / 價格」算式:
- 最便宜且中文好: DeepSeek V3(每百萬 tokens $0.27 input / $1.10 output)。同等中文輸出常常比前沿閉源便宜 10-20 倍。
- 最佳閉源前沿: Claude Sonnet(每百萬 tokens 約 $3 input / $15 output)。品質最高、人工後製最少。
- 免費自架: Qwen 3 70B 跑在租用 GPU。中文品質好,固定月成本不依量。
中文為主的 production 工作量(每月百萬+ 查詢),自架 Qwen 或用 DeepSeek 會大幅降本而品質不犧牲。
專為中文調過的模型
值得知道:
- Yi-Lightning / Yi 1.5 — 01.AI 家族。中文強、雙語。
- GLM-4 — 智譜系列,中英雙語強、agent 能力好。
- MiniMax abab 系列 — 中文對話強、有語音模態。
- Baichuan、MOSS — 較老的中文家族。多被取代但 legacy 系統還在。
常見挑錯
三個傷中文品質的模式:
**中文預設用 GPT-4o。**它能力 OK 但很少是最佳。測試替代品。
**中文 RAG 用 OpenAI embedding。**能跑但 BGE-M3 在中文檢索任務上贏 10-20%。切換成本小、品質提升真實。
**Prompt 沒指定地區。**沒明確 zh-TW 或 zh-CN 指令,模型會漂到大陸風格,你花幾小時改。
什麼時候不用太糾結中文模型
- 一次性翻譯,任何前沿模型都行。
- 內部隨手用(草稿、brainstorm),差別不大。
- 你的中文受眾只有大陸,zh-TW 痛苦少很多。
延伸閱讀
- 怎麼為你的場景挑對 LLM
- Open-source LLM vs 前沿 API:什麼任務該用哪個
- 什麼是 embedding
- 用 LLM + spot-check 把部落格翻成 3 種語言
- 用 AI 把產品在地化成繁中 + 簡中