2026 年 TTS 已经成熟到问题不再是「够不够好」,而是「你想要哪种取舍」。挑错工具,要么多付五倍钱,要么碰到本来就不是给你这个用途设计的天花板。
ElevenLabs:品质领先,但贵
ElevenLabs 还是高端的默认选择。声音自然、情感范围最广、多语言故事(2026 年同一个克隆声音支持 32 语)没人比得上。做有声书、premium podcast 配音、独立游戏角色配音,ElevenLabs 是最快达到广播品质的选项。
声音克隆是 ElevenLabs 真正拉开差距的地方。Instant Voice Clone(30 秒音频)就很好,Professional Voice Clone(一小时干净音频)对大部分听众来说已经跟原讲者没办法分辨。Voice Library 有上千个社群声音可以挑。
弱点是贵。Creator 方案($22/月)大概只够生 2 小时音频。要 scale 到 production 量 — 例如 podcast 服务每天 10 万字 — 很快就烧。每字 API 价格大概是新对手的 2-3 倍。
OpenAI TTS / Realtime:便宜、快、整合好
OpenAI 的 TTS(tts-1、tts-1-hd)跟 Realtime API(用 Coral、Marin、Cedar 等 voice model)比 ElevenLabs 便宜很多,大部分工作流也够用。Realtime API 专门为双向语音对话设计 — 延迟 300ms 以下、可以打断、原生音频输出不经过文字中介。
OpenAI 适合:语音 agent、取代 IVR、对话式 AI 产品、任何要求是「自然就好」而不是「有声书品质」的场景。声音称职但选择有限(2026 年大概 6 个不同声音,不能克隆)。
弱点:声音多样性差。产品需要特定角色声音或自定义克隆声音,OpenAI 没有。多语言还行但非英语的口音比 ElevenLabs 弱。
Cartesia Sonic:延迟冠军
Cartesia 是 builder 圈值得认识的黑马。Sonic 2 流式音频的 time-to-first-byte 大概 90ms,业界最低。对实时 agent 来说 — 每多 50ms 延迟,语音回应就感觉尴尬一点 — Cartesia 是另一个等级。品质接近 ElevenLabs、支持声音克隆、价格大概是 ElevenLabs 的一半。
Cartesia 强在:实时语音 agent(客服、语言家教、声控产品)。任何「明显停顿会杀掉 UX」的地方。流式 voice cloning 工作流(克隆后实时 stream 该声音)也走在前面。
弱点:声音库小、有些语言的 SDK 还不够成熟、品牌知名度低。它比较新,ElevenLabs 累积的工作流细节还没全到位。
中文语音是另一个领域
一旦需要自然的普通话(尤其是普通话 vs 台湾国语),西方领先者就会弱掉,中文选项变得有意思:
- MiniMax — 顶级中文声音、声音克隆效果好。便宜。
- 火山引擎(字节跳动) — 豆包内部用的,自然度很强。透过 volcengine.com API。
- 腾讯云 TTS — 声音库广、跟微信生态整合。
- 科大讯飞 — 老牌,准确度高,声音稍微过时感。
ElevenLabs 的中文声音还行,但听得出洋腔。中文优先的产品,先试 MiniMax 或火山,只有同时要 30 种其他语言才考虑 ElevenLabs。
声音克隆伦理跟法规
如果你克隆的声音不是自己的,你是踩进法律雷区。ElevenLabs 要求口头同意声明;OpenAI 完全不提供 voice cloning。美国好几个州(田纳西的 ELVIS Act、加州、纽约)有专门针对声音的肖像权法。欧盟 AI Act 把 deepfake 语音标为高风险。
原则:只克隆你有讲者明确、书面、有日期、针对特定用途的同意。不要克隆名人。不要克隆竞争对手。不要克隆过世的公众人物 — 即使没有遗产可以告你。
什么时候不适合用
直接面对客户、要同理心或信任的场景(求助热线、医疗对话、敏感销售)。2026 年最好的 AI 声音,专心听 30 秒后大概一半的人能辨认出来。如果客户关系建立在「被听见」的感觉上,雇人。
发音正确性很重要的长内容(医疗、法律、有大量专有名词或专业术语)。所有 TTS 系统都还是会把名字跟生僻字念错。有声书制作公司还是付钱给人去 QA 每一页。
给视障使用者的无障碍内容。专门的屏幕阅读器(NVDA、VoiceOver)在导航提示上比一般 TTS 优化得多 — 把 ElevenLabs 拿来当屏幕阅读器是杀鸡用牛刀。
规模化的成本比较
每月 10 万字音频(2026 年中段价):
- ElevenLabs Pro:约 $50-90/月加超量
- OpenAI tts-1-hd:约 $30/月
- Cartesia Sonic:约 $25-40/月
- MiniMax(中文):约 $10-15/月
量再大 10 倍,差距会明显放大 — ElevenLabs 会到 $500+/月,Cartesia 跟 OpenAI 还在 $200 以下。
决策树
- 有声书、premium podcast、角色配音:ElevenLabs
- 语音 agent、实时、低延迟:Cartesia Sonic
- 跟 ChatGPT 整合的语音产品:OpenAI Realtime API
- 中文优先内容:MiniMax 或 火山引擎
- 自架(不打 API):F5-TTS 或 Coqui XTTS 开源
大部分 production 配置会用两个:高端模型做主要内容(ElevenLabs)+ 快/便宜模型做大量内容(OpenAI 或 Cartesia)。
下一步
- 看一下语音 agent 架构(STT → LLM → TTS pipeline 跟端到端 speech model 的差别)
- 小心尝试 voice cloning — 有同意才克隆,绝不克隆名人
- 看 LiveKit、Pipecat、Daily 等 real-time SDK 处理语音 agent 基础设施
- 用同一个脚本直接比品质 — 你会听出 feature chart 看不出的差别