用 LLM 加抽查工作流把部落格翻成 3 個語言

如果你寫部落格、想觸及其他語言讀者,有三個選項:雇人翻譯(貴、慢、規模難)、直接用機器翻譯(快、便宜、但很明顯是翻的)、或用 LLM 加上仔細的工作流產出讀者察覺不到是翻譯的版本。第三個是 2026 年 work 的選項。

基本食譜

每篇文:

把原文用調過的 prompt 過 LLM(下面講)
拿回翻譯草稿
抽查 2-3 段
跑最後一輪修你發現的問題
發布

每篇總時間:15-30 分鐘。成本:約 2000 字文章 API 費用 $0.50 以內。品質:90% 內容上跟稱職人類翻譯難以區分。

翻譯 prompt

持續產出有母語感輸出的 prompt 結構:

你正在把一篇文章從 [來源語] 翻譯到 [目標語],受眾是 [描述]。

指引:
- 語氣:[配合原文 — 輕鬆 / 正式 / 有觀點 / 等]
- 保留這些詞為 [原語]:[術語表]
- 不要翻譯 code block 或技術語法
- 不要對受眾顯然懂的詞加解釋
- 配合原文段落結構
- 受眾讀母語級 [目標語];不要過度解釋
- 只輸出翻譯,不要評論

來源:
[貼文章]

術語表很關鍵。中文科技寫作,通常要把「prompt」、「agent」、「RAG」、「context window」、「token」、模型名(Claude、GPT、Gemini)、產品名(Cursor、Lovable)都留英文。明確「這些保持英文」防止過度本地化。

選對的模型

Claude 4.5 Sonnet 是預設。對大部分語言對產出最自然輸出,可靠地遵守「保留這些詞」指令。

GPT-5 是接近第二名,大量處理時略便宜。

Gemini 2.5 Pro 在中英之間特別強;多語訓練很密。

DeepSeek V3 / Qwen 2.5 是最強的開源選擇,產出很棒的中文輸出。在意成本或翻成中文時用。

DeepL 在這市場上失利 — 翻譯風格統一,不像 LLM 那樣尊重術語表或受眾 context。當備援或健康檢查還有用。

抽查什麼

不要讀整篇翻譯。會疲乏然後不會注意問題。改成:

仔細讀標題跟開頭段落。 第一印象對留存影響最大。
讀每段含引言、數字、人名的。 翻譯錯誤藏在這些。
掃描 section header。 爛的 header(過字面翻譯)代表底下有問題。
讀最後一段。 結尾常常因為 LLM 「注意力用完」而退化。
搜尋任何術語表詞。 驗證有保留在對的語言。

其他的,滑過去看到怪的再停。

常見失敗模式

過度本地化。 LLM 試著幫忙,把英文品牌名換成本地版,或把美國例子換成當地。對策:「不要文化適應 — 翻譯,不是改寫。」

語氣漂移。 輕鬆的文變正式。對策:在 prompt 裡明確含原文語氣:「原文是對話式、有觀點、用縮寫。配合這個。」

數字跟日期被重新格式化。 常常是想要的(美式 → 歐式日期)但有時是錯的。在 prompt 裡明確指定要哪種格式。

術語表洩漏。 「Prompt」在長文裡被翻成「提示」一兩次。事後搜尋修。

尷尬借譯。 英文慣用語直譯。科技圈的大顆:「out of the box」、「low-hanging fruit」、「move the needle」。如果用了,翻譯前替換或記在術語表。

多語工作流

3+ 語言時批次處理:

從原文(英文)分別翻到每個目標語。不要從翻譯翻譯。
為了一致性用同一模型,除非某個語言在另一模型上明顯更好(中文在 Gemini 可能更好,即使英文原文走 Claude)。
維護每語言的術語表檔案。它們會隨時間分歧。
每語言追蹤問題。zh-TW 跟 zh-CN 規約不同;一個 work 的另一個失敗。

中文特別注意:把 zh-TW 跟 zh-CN 當成從英文原文分別翻譯,不是字符轉換。詞彙不同(軟體/软件、影片/视频、預設/默认)。告訴 LLM 哪個變體它就能處理。

什麼時候不要用 LLM 翻譯

定義品牌的行銷文案。 Hero 標題、tagline、廣告文案,每個字都重要。付給 transcreation 專家或母語文案。

法律文字。 服務條款、隱私政策、合約。誤譯成本是真的法律責任。

詩、小說、任何節奏重要的。 LLM 翻譯意義稱職但節奏跟韻幾乎絕不。雇文學翻譯者。

直接翻譯成音訊的音訊內容。 翻逐字稿 OK;在翻譯上用 TTS OK;但語言之間的口語自然節奏不同。為目標語音訊重新寫稿。

可量測的改善 loop

如果你定期發翻譯,建立 feedback:

對目標語讀者做問卷。「這讀起來像本來就是用你的語言寫的嗎?」
按語言追蹤 engagement 指標。翻譯版頁面停留時間低 50%,翻譯品質在傷害你。
找母語審稿者(付費或社群),每季 flag 問題。他們會找出 LLM 一直犯的 pattern。
根據學到的更新術語表跟 prompt。

大部分獨立部落格跟小團隊跳過這個。每季做一次還是值得。

決策樹

個人部落格、偶爾發、低風險:直接 LLM 翻、輕抽查
專業部落格、定期發:LLM + 術語表 + 抽查工作流
高風險品牌內容:LLM 出草稿 + 母語編輯
法律 / 合約:認證人類翻譯,不用 LLM
詩 / 文學:人類翻譯,不用 LLM

下一步

建一個跨多篇文章重用的每語言術語表
挑一個模型用一季;一致性重要
看一下專門針對翻譯的 prompt engineering
找一個母語讀者每月抽查你的輸出一次