文字转语音 (TTS)

把文字转成语音的任务，现代 neural TTS 系统（ElevenLabs、OpenAI TTS、Google）能产出接近人声、可复制、有情感、多语言的声音。

Text-to-speech（TTS）是把文字转成语音的任务。旧的 TTS 系统听起来机器人感重；现代 neural TTS——由 transformer 跟 diffusion 架构驱动——产出的声音常跟人类语音难以区分，能控制情感、语速、语言。它重要的原因是：TTS 解锁很多 audio-first 产品类别：有声书旁白、podcast 生成、无障碍工具（盲人屏幕阅读）、视频配音、语言学习 app、会说话的 AI agent（ChatGPT 跟 Gemini 的语音模式）、IVR / 电话树取代。对内容创作者，TTS 让你能规模化产出语音内容，不用进录音间。领先供应商：ElevenLabs（消费者质量语音克隆，podcast/有声书市场主导）、OpenAI TTS（内建 API，多个声音）、Google WaveNet 跟其后继、Amazon Polly、Azure TTS。Open-source 选项像 XTTS-v2、OpenVoice 支援短样本声音克隆。中文特别来说，原生中文训练的 TTS（字节跳动、腾讯、ElevenLabs 的中文模型）通常胜过后来才加中文的模型。声音克隆是最有争议的领域——10-30 秒音频就能做出高质量克隆，引发诈骗跟冒充疑虑。ElevenLabs 跟 OpenAI 都对克隆声音实施同意验证跟水印。延伸阅读：speech-to-text、multi-modal、voice cloning。