AI 语音 / TTS 工具怎么选:ElevenLabs、OpenAI、Cartesia 对比

2026 年 TTS 已经成熟到问题不再是「够不够好」,而是「你想要哪种取舍」。挑错工具,要么多付五倍钱,要么碰到本来就不是给你这个用途设计的天花板。

ElevenLabs:品质领先,但贵

ElevenLabs 还是高端的默认选择。声音自然、情感范围最广、多语言故事(2026 年同一个克隆声音支持 32 语)没人比得上。做有声书、premium podcast 配音、独立游戏角色配音,ElevenLabs 是最快达到广播品质的选项。

声音克隆是 ElevenLabs 真正拉开差距的地方。Instant Voice Clone(30 秒音频)就很好,Professional Voice Clone(一小时干净音频)对大部分听众来说已经跟原讲者没办法分辨。Voice Library 有上千个社群声音可以挑。

弱点是贵。Creator 方案($22/月)大概只够生 2 小时音频。要 scale 到 production 量 — 例如 podcast 服务每天 10 万字 — 很快就烧。每字 API 价格大概是新对手的 2-3 倍。

OpenAI TTS / Realtime:便宜、快、整合好

OpenAI 的 TTS(tts-1、tts-1-hd)跟 Realtime API(用 Coral、Marin、Cedar 等 voice model)比 ElevenLabs 便宜很多,大部分工作流也够用。Realtime API 专门为双向语音对话设计 — 延迟 300ms 以下、可以打断、原生音频输出不经过文字中介。

OpenAI 适合:语音 agent、取代 IVR、对话式 AI 产品、任何要求是「自然就好」而不是「有声书品质」的场景。声音称职但选择有限(2026 年大概 6 个不同声音,不能克隆)。

弱点:声音多样性差。产品需要特定角色声音或自定义克隆声音,OpenAI 没有。多语言还行但非英语的口音比 ElevenLabs 弱。

Cartesia Sonic:延迟冠军

Cartesia 是 builder 圈值得认识的黑马。Sonic 2 流式音频的 time-to-first-byte 大概 90ms,业界最低。对实时 agent 来说 — 每多 50ms 延迟,语音回应就感觉尴尬一点 — Cartesia 是另一个等级。品质接近 ElevenLabs、支持声音克隆、价格大概是 ElevenLabs 的一半。

Cartesia 强在:实时语音 agent(客服、语言家教、声控产品)。任何「明显停顿会杀掉 UX」的地方。流式 voice cloning 工作流(克隆后实时 stream 该声音)也走在前面。

弱点:声音库小、有些语言的 SDK 还不够成熟、品牌知名度低。它比较新,ElevenLabs 累积的工作流细节还没全到位。

中文语音是另一个领域

一旦需要自然的普通话(尤其是普通话 vs 台湾国语),西方领先者就会弱掉,中文选项变得有意思:

MiniMax — 顶级中文声音、声音克隆效果好。便宜。
火山引擎(字节跳动) — 豆包内部用的,自然度很强。透过 volcengine.com API。
腾讯云 TTS — 声音库广、跟微信生态整合。
科大讯飞 — 老牌,准确度高,声音稍微过时感。

ElevenLabs 的中文声音还行,但听得出洋腔。中文优先的产品,先试 MiniMax 或火山,只有同时要 30 种其他语言才考虑 ElevenLabs。

声音克隆伦理跟法规

如果你克隆的声音不是自己的,你是踩进法律雷区。ElevenLabs 要求口头同意声明;OpenAI 完全不提供 voice cloning。美国好几个州(田纳西的 ELVIS Act、加州、纽约)有专门针对声音的肖像权法。欧盟 AI Act 把 deepfake 语音标为高风险。

原则:只克隆你有讲者明确、书面、有日期、针对特定用途的同意。不要克隆名人。不要克隆竞争对手。不要克隆过世的公众人物 — 即使没有遗产可以告你。

什么时候不适合用

直接面对客户、要同理心或信任的场景(求助热线、医疗对话、敏感销售)。2026 年最好的 AI 声音,专心听 30 秒后大概一半的人能辨认出来。如果客户关系建立在「被听见」的感觉上,雇人。

发音正确性很重要的长内容(医疗、法律、有大量专有名词或专业术语)。所有 TTS 系统都还是会把名字跟生僻字念错。有声书制作公司还是付钱给人去 QA 每一页。

给视障使用者的无障碍内容。专门的屏幕阅读器(NVDA、VoiceOver)在导航提示上比一般 TTS 优化得多 — 把 ElevenLabs 拿来当屏幕阅读器是杀鸡用牛刀。

规模化的成本比较

每月 10 万字音频(2026 年中段价):

ElevenLabs Pro:约 $50-90/月加超量
OpenAI tts-1-hd:约 $30/月
Cartesia Sonic:约 $25-40/月
MiniMax(中文):约 $10-15/月

量再大 10 倍,差距会明显放大 — ElevenLabs 会到 $500+/月,Cartesia 跟 OpenAI 还在 $200 以下。

决策树

有声书、premium podcast、角色配音:ElevenLabs
语音 agent、实时、低延迟:Cartesia Sonic
跟 ChatGPT 整合的语音产品:OpenAI Realtime API
中文优先内容:MiniMax 或 火山引擎
自架(不打 API):F5-TTS 或 Coqui XTTS 开源

大部分 production 配置会用两个:高端模型做主要内容(ElevenLabs)+ 快/便宜模型做大量内容(OpenAI 或 Cartesia)。

下一步

看一下语音 agent 架构(STT → LLM → TTS pipeline 跟端到端 speech model 的差别)
小心尝试 voice cloning — 有同意才克隆,绝不克隆名人
看 LiveKit、Pipecat、Daily 等 real-time SDK 处理语音 agent 基础设施
用同一个脚本直接比品质 — 你会听出 feature chart 看不出的差别