跳到内容

任务

文字转语音 (TTS)

Text-to-speech (TTS)

把文字转成语音的任务,现代 neural TTS 系统(ElevenLabs、OpenAI TTS、Google)能产出接近人声、可复制、有情感、多语言的声音。

登入以收藏
Text-to-speech(TTS)是把文字转成语音的任务。旧的 TTS 系统听起来机器人感重;现代 neural TTS——由 transformer 跟 diffusion 架构驱动——产出的声音常跟人类语音难以区分,能控制情感、语速、语言。 它重要的原因是:TTS 解锁很多 audio-first 产品类别:有声书旁白、podcast 生成、无障碍工具(盲人屏幕阅读)、视频配音、语言学习 app、会说话的 AI agent(ChatGPT 跟 Gemini 的语音模式)、IVR / 电话树取代。对内容创作者,TTS 让你能规模化产出语音内容,不用进录音间。 领先供应商:ElevenLabs(消费者质量语音克隆,podcast/有声书市场主导)、OpenAI TTS(内建 API,多个声音)、Google WaveNet 跟其后继、Amazon Polly、Azure TTS。Open-source 选项像 XTTS-v2、OpenVoice 支援短样本声音克隆。中文特别来说,原生中文训练的 TTS(字节跳动、腾讯、ElevenLabs 的中文模型)通常胜过后来才加中文的模型。 声音克隆是最有争议的领域——10-30 秒音频就能做出高质量克隆,引发诈骗跟冒充疑虑。ElevenLabs 跟 OpenAI 都对克隆声音实施同意验证跟水印。延伸阅读:speech-to-text、multi-modal、voice cloning。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more