AI 語音 / TTS 工具怎麼選:ElevenLabs、OpenAI、Cartesia 比較

2026 年 TTS 已經成熟到問題不再是「夠不夠好」,而是「你想要哪種取捨」。挑錯工具,要嘛多付五倍錢,要嘛碰到本來就不是給你這個用途設計的天花板。

ElevenLabs:品質領先,但貴

ElevenLabs 還是高端的預設選擇。聲音自然、情感範圍最廣、多語言故事(2026 年同一個複製聲音支援 32 語)沒人比得上。做有聲書、premium podcast 配音、獨立遊戲角色配音,ElevenLabs 是最快達到廣播品質的選項。

聲音複製是 ElevenLabs 真正拉開差距的地方。Instant Voice Clone(30 秒音檔)就很好,Professional Voice Clone(一小時乾淨音檔)對大部分聽眾來說已經跟原講者沒辦法分辨。Voice Library 有上千個社群聲音可以挑。

弱點是貴。Creator 方案($22/月)大概只夠生 2 小時音訊。要 scale 到 production 量 — 例如 podcast 服務每天 10 萬字 — 很快就燒。每字 API 價格大概是新對手的 2-3 倍。

OpenAI TTS / Realtime:便宜、快、整合好

OpenAI 的 TTS(tts-1、tts-1-hd)跟 Realtime API(用 Coral、Marin、Cedar 等 voice model)比 ElevenLabs 便宜很多,大部分工作流也夠用。Realtime API 專門為雙向語音對話設計 — 延遲 300ms 以下、可以打斷、原生音訊輸出不經過文字中介。

OpenAI 適合:語音 agent、取代 IVR、對話式 AI 產品、任何要求是「自然就好」而不是「有聲書品質」的場景。聲音稱職但選擇有限(2026 年大概 6 個不同聲音,不能複製)。

弱點:聲音多樣性差。產品需要特定角色聲音或自訂複製聲音,OpenAI 沒有。多語言還行但非英語的口音比 ElevenLabs 弱。

Cartesia Sonic:延遲冠軍

Cartesia 是 builder 圈值得認識的黑馬。Sonic 2 串流音訊的 time-to-first-byte 大概 90ms,業界最低。對即時 agent 來說 — 每多 50ms 延遲,語音回應就感覺尷尬一點 — Cartesia 是另一個等級。品質接近 ElevenLabs、支援聲音複製、價格大概是 ElevenLabs 的一半。

Cartesia 強在:即時語音 agent(客服、語言家教、聲控產品)。任何「明顯停頓會殺掉 UX」的地方。串流 voice cloning 工作流(複製後即時 stream 該聲音)也走在前面。

弱點:聲音庫小、有些語言的 SDK 還不夠成熟、品牌知名度低。它比較新,ElevenLabs 累積的工作流細節還沒全到位。

中文語音是另一個領域

一旦需要自然的普通話(尤其是台灣國語 vs 大陸普通話),西方領先者就會弱掉,中文選項變得有意思:

MiniMax — 頂級中文聲音、聲音複製效果好。便宜。
火山引擎(字節跳動) — 豆包內部用的,自然度很強。透過 volcengine.com API。
Tencent Cloud TTS — 聲音庫廣、跟微信生態整合。
科大訊飛 — 老牌,準確度高,聲音稍微過時感。

ElevenLabs 的中文聲音還行,但聽得出洋腔。中文優先的產品,先試 MiniMax 或火山,只有同時要 30 種其他語言才考慮 ElevenLabs。

聲音複製倫理跟法規

如果你複製的聲音不是自己的,你是踩進法律雷區。ElevenLabs 要求口頭同意聲明;OpenAI 完全不提供 voice cloning。美國好幾個州(田納西的 ELVIS Act、加州、紐約)有專門針對聲音的肖像權法。歐盟 AI Act 把 deepfake 語音標為高風險。

原則:只複製你有講者明確、書面、有日期、針對特定用途的同意。不要複製名人。不要複製競爭對手。不要複製過世的公眾人物 — 即使沒有遺產可以告你。

什麼時候不適合用

直接面對客戶、要同理心或信任的場景(求助專線、醫療對話、敏感銷售)。2026 年最好的 AI 聲音,專心聽 30 秒後大概一半的人能辨認出來。如果客戶關係建立在「被聽見」的感覺上,雇人。

發音正確性很重要的長內容(醫療、法律、有大量專有名詞或專業術語)。所有 TTS 系統都還是會把名字跟生僻字念錯。有聲書製作公司還是付錢給人去 QA 每一頁。

給視障使用者的無障礙內容。專門的螢幕閱讀器(NVDA、VoiceOver)在導航提示上比一般 TTS 優化得多 — 把 ElevenLabs 拿來當螢幕閱讀器是殺雞用牛刀。

規模化的成本比較

每月 10 萬字音訊(2026 年中段價):

ElevenLabs Pro:約 $50-90/月加超量
OpenAI tts-1-hd:約 $30/月
Cartesia Sonic:約 $25-40/月
MiniMax(中文):約 $10-15/月

量再大 10 倍,差距會明顯放大 — ElevenLabs 會到 $500+/月,Cartesia 跟 OpenAI 還在 $200 以下。

決策樹

有聲書、premium podcast、角色配音:ElevenLabs
語音 agent、即時、低延遲:Cartesia Sonic
跟 ChatGPT 整合的語音產品:OpenAI Realtime API
中文優先內容:MiniMax 或 火山引擎
自架(不打 API):F5-TTS 或 Coqui XTTS 開源

大部分 production 配置會用兩個:高端模型做主要內容(ElevenLabs)+ 快/便宜模型做大量內容(OpenAI 或 Cartesia)。

下一步

看一下語音 agent 架構(STT → LLM → TTS pipeline 跟端到端 speech model 的差別)
小心嘗試 voice cloning — 有同意才複製,絕不複製名人
看 LiveKit、Pipecat、Daily 等 real-time SDK 處理語音 agent 基礎建設
用同一個腳本直接比品質 — 你會聽出 feature chart 看不出的差別