用 LLM 加抽查工作流把博客翻成 3 个语言

如果你写博客、想触及其他语言读者,有三个选项:雇人翻译(贵、慢、规模难)、直接用机器翻译(快、便宜、但很明显是翻的)、或用 LLM 加上仔细的工作流产出读者察觉不到是翻译的版本。第三个是 2026 年 work 的选项。

基本食谱

每篇文:

把原文用调过的 prompt 过 LLM(下面讲)
拿回翻译草稿
抽查 2-3 段
跑最后一轮修你发现的问题
发布

每篇总时间:15-30 分钟。成本:约 2000 字文章 API 费用 $0.50 以内。品质:90% 内容上跟称职人类翻译难以区分。

翻译 prompt

持续产出有母语感输出的 prompt 结构:

你正在把一篇文章从 [来源语] 翻译到 [目标语],受众是 [描述]。

指引:
- 语气:[配合原文 — 轻松 / 正式 / 有观点 / 等]
- 保留这些词为 [原语]:[术语表]
- 不要翻译 code block 或技术语法
- 不要对受众显然懂的词加解释
- 配合原文段落结构
- 受众读母语级 [目标语];不要过度解释
- 只输出翻译,不要评论

来源:
[贴文章]

术语表很关键。中文科技写作,通常要把「prompt」、「agent」、「RAG」、「context window」、「token」、模型名(Claude、GPT、Gemini)、产品名(Cursor、Lovable)都留英文。明确「这些保持英文」防止过度本地化。

选对的模型

Claude 4.5 Sonnet 是默认。对大部分语言对产出最自然输出,可靠地遵守「保留这些词」指令。

GPT-5 是接近第二名,大量处理时略便宜。

Gemini 2.5 Pro 在中英之间特别强;多语训练很密。

DeepSeek V3 / Qwen 2.5 是最强的开源选择,产出很棒的中文输出。在意成本或翻成中文时用。

DeepL 在这市场上失利 — 翻译风格统一,不像 LLM 那样尊重术语表或受众 context。当备援或健康检查还有用。

抽查什么

不要读整篇翻译。会疲乏然后不会注意问题。改成:

仔细读标题跟开头段落。 第一印象对留存影响最大。
读每段含引言、数字、人名的。 翻译错误藏在这些。
扫描 section header。 烂的 header(过字面翻译)代表底下有问题。
读最后一段。 结尾常常因为 LLM 「注意力用完」而退化。
搜寻任何术语表词。 验证有保留在对的语言。

其他的,滑过去看到怪的再停。

常见失败模式

过度本地化。 LLM 试着帮忙,把英文品牌名换成本地版,或把美国例子换成当地。对策:「不要文化适应 — 翻译,不是改写。」

语气漂移。 轻松的文变正式。对策:在 prompt 里明确含原文语气:「原文是对话式、有观点、用缩写。配合这个。」

数字跟日期被重新格式化。 常常是想要的(美式 → 欧式日期)但有时是错的。在 prompt 里明确指定要哪种格式。

术语表泄漏。 「Prompt」在长文里被翻成「提示」一两次。事后搜寻修。

尴尬借译。 英文惯用语直译。科技圈的大颗:「out of the box」、「low-hanging fruit」、「move the needle」。如果用了,翻译前替换或记在术语表。

多语工作流

3+ 语言时批次处理:

从原文(英文)分别翻到每个目标语。不要从翻译翻译。
为了一致性用同一模型,除非某个语言在另一模型上明显更好(中文在 Gemini 可能更好,即使英文原文走 Claude)。
维护每语言的术语表文件。它们会随时间分歧。
每语言追踪问题。zh-TW 跟 zh-CN 规约不同;一个 work 的另一个失败。

中文特别注意:把 zh-TW 跟 zh-CN 当成从英文原文分别翻译,不是字符转换。词汇不同(軟體/软件、影片/视频、預設/默认)。告诉 LLM 哪个变体它就能处理。

什么时候不要用 LLM 翻译

定义品牌的营销文案。 Hero 标题、tagline、广告文案,每个字都重要。付给 transcreation 专家或母语文案。

法律文字。 服务条款、隐私政策、合同。误译成本是真的法律责任。

诗、小说、任何节奏重要的。 LLM 翻译意义称职但节奏跟韵几乎绝不。雇文学翻译者。

直接翻译成音频的音频内容。 翻逐字稿 OK;在翻译上用 TTS OK;但语言之间的口语自然节奏不同。为目标语音频重新写稿。

可量测的改善 loop

如果你定期发翻译,建立 feedback:

对目标语读者做问卷。「这读起来像本来就是用你的语言写的吗?」
按语言追踪 engagement 指标。翻译版页面停留时间低 50%,翻译品质在伤害你。
找母语审稿者(付费或社群),每季 flag 问题。他们会找出 LLM 一直犯的 pattern。
根据学到的更新术语表跟 prompt。

大部分独立博客跟小团队跳过这个。每季做一次还是值得。

决策树

个人博客、偶尔发、低风险:直接 LLM 翻、轻抽查
专业博客、定期发:LLM + 术语表 + 抽查工作流
高风险品牌内容:LLM 出草稿 + 母语编辑
法律 / 合同:认证人类翻译,不用 LLM
诗 / 文学:人类翻译,不用 LLM

下一步

建一个跨多篇文章重用的每语言术语表
挑一个模型用一季;一致性重要
看一下专门针对翻译的 prompt engineering
找一个母语读者每月抽查你的输出一次