如果你的工作涉及严肃的中文输出 — 繁体或简体 — 你会很快发现前沿 LLM 表现不一。有些产出的中文像母语者写的,有些像翻译。2026 年的局势变了:中文 open-weight 模型(Qwen、DeepSeek、Yi)现在跟前沿闭源真的有竞争力,母语场景常常更强。这篇按任务告诉你怎么挑。
一句话总结
2026 年中文任务的实用排序:
- Qwen 3(阿里) — 整体中文最强,zh-CN 跟 zh-TW 都行。开源权重。
- DeepSeek V3 / R1 — 质量顶尖、成本超低、推理强。开源权重。
- Claude Sonnet — 闭源前沿里细腻中文最好,zh-TW 特别强。
- Gemini 2.5 Pro — 中文强,长 context 表现好。闭源。
- GPT-5 — 中文还行但不出众;zh-CN 比 zh-TW 好。
- Yi(零一万物) — 有竞争力的中文 open-weight,模型线较窄。
- Llama 4 — 多语但中文不是强项,落后 Qwen / DeepSeek。
该测什么
中文母语感不是一个技能。有意义的五个子测试:
**语气自然。**读起来像母语者写的还是机器翻译?写一段随意的文字、请母语者标出哪边别扭。
成语使用。「画蛇添足」「为德不卒」 — 模型用对了还是硬塞?
**zh-TW vs zh-CN 风格。**模型挑「软件」还是「軟體」?「程序」还是「程式」?「视频」还是「影片」?地区用词差异。
**中文推理。**用中文问数学、逻辑、分析,得到一样清楚的中文回答。某些模型在中文输入下会默默变弱。
**混合输入。**真实中文夹杂英文品牌名、技术词、代码。模型应该保留自然该英文的部分,不要过度翻译。
各任务最佳选
zh-TW 母语写作(台湾风格)
- 最佳:Qwen 3、Claude Sonnet
- 避免:GPT-5(会漂到大陆用词);Llama 4(翻译感)
zh-CN 母语写作(大陆风格)
- 最佳:Qwen 3、DeepSeek V3
- 闭源替代:Claude Sonnet、Gemini 2.5 Pro
中翻英
- 最佳:Claude Sonnet 细腻;DeepSeek 省钱
- 避免:GPT-4o-mini(有时失准)
英翻中
- 最佳:Qwen 3(明确指定 zh-TW 或 zh-CN)
- 闭源:Claude Sonnet(prompt 里指定地区)
中文 RAG / QA
- 最佳 embedding:BGE-M3、Cohere multilingual v3
- 最佳生成:Qwen 3 或 Claude Sonnet 对检索 chunk
- 避免:中文为主语料用 OpenAI embedding(明显比 BGE 差)
中文 coding / 注释
- 最佳:Claude Sonnet、Qwen Coder、DeepSeek
- 注释:多数模型默认英文,prompt 里指定
给终端用户的中文 chatbot
- 最佳:成本敏感用 Qwen 3,质量优先用 Claude Sonnet
- 实时 / 快:Gemini Flash、Claude Haiku
zh-TW vs zh-CN 陷阱
持续恼人的问题:多数模型即使收到 zh-TW 输入,输出仍默认 zh-CN 风格。你会拿到「软件、视频、程序」即使 prompt 用了「軟體、影片、程式」。
缓解:
- System prompt 写死。「永远用繁体中文(台湾风格)回答。用『軟體』不要『软件』、『影片』不要『视频』、『預設』不要『默认』。」
- **提供对照表。**Prompt 里放一份偏好用词短表帮很大。
- **zh-TW 场景挑 Claude Sonnet。**我们的经验它对地区一致性最好。
- Qwen 3 / DeepSeek 设
system: "你是繁体中文助理,使用台湾惯用词"并验证输出。 - **后处理。**简单的 find-replace 字典能抓到最常见的漂移。
中文工作的成本取舍
中文任务「质量 / 价格」算式:
- 最便宜且中文好: DeepSeek V3(每百万 tokens $0.27 input / $1.10 output)。同等中文输出常常比前沿闭源便宜 10-20 倍。
- 最佳闭源前沿: Claude Sonnet(每百万 tokens 约 $3 input / $15 output)。质量最高、人工后制最少。
- 免费自架: Qwen 3 70B 跑在租用 GPU。中文质量好,固定月成本不依量。
中文为主的 production 工作量(每月百万+ 查询),自架 Qwen 或用 DeepSeek 会大幅降本而质量不牺牲。
专为中文调过的模型
值得知道:
- Yi-Lightning / Yi 1.5 — 01.AI 家族。中文强、双语。
- GLM-4 — 智谱系列,中英双语强、agent 能力好。
- MiniMax abab 系列 — 中文对话强、有语音模态。
- Baichuan、MOSS — 较老的中文家族。多被取代但 legacy 系统还在。
常见挑错
三个伤中文质量的模式:
**中文默认用 GPT-4o。**它能力 OK 但很少是最佳。测试替代品。
**中文 RAG 用 OpenAI embedding。**能跑但 BGE-M3 在中文检索任务上赢 10-20%。切换成本小、质量提升真实。
**Prompt 没指定地区。**没明确 zh-TW 或 zh-CN 指令,模型会漂到大陆风格,你花几小时改。
什么时候不用太纠结中文模型
- 一次性翻译,任何前沿模型都行。
- 内部随手用(草稿、brainstorm),差别不大。
- 你的中文受众只有大陆,zh-TW 痛苦少很多。
延伸阅读
- 怎么为你的场景挑对 LLM
- Open-source LLM vs 前沿 API:什么任务该用哪个
- 什么是 embedding
- 用 LLM + spot-check 把博客翻成 3 种语言
- 用 AI 把产品本地化成繁中 + 简中