文字轉語音 (TTS)

把文字轉成語音的任務，現代 neural TTS 系統（ElevenLabs、OpenAI TTS、Google）能產出接近人聲、可複製、有情感、多語言的聲音。

Text-to-speech（TTS）是把文字轉成語音的任務。舊的 TTS 系統聽起來機器人感重；現代 neural TTS——由 transformer 跟 diffusion 架構驅動——產出的聲音常跟人類語音難以區分，能控制情感、語速、語言。它重要的原因是：TTS 解鎖很多 audio-first 產品類別：有聲書旁白、podcast 生成、可及性工具（盲人螢幕閱讀）、影片配音、語言學習 app、會說話的 AI agent（ChatGPT 跟 Gemini 的語音模式）、IVR / 電話樹取代。對內容創作者，TTS 讓你能規模化產出語音內容，不用進錄音間。領先供應商：ElevenLabs（消費者品質語音克隆，podcast/有聲書市場主導）、OpenAI TTS（內建 API，多個聲音）、Google WaveNet 跟其後繼、Amazon Polly、Azure TTS。Open-source 選項像 XTTS-v2、OpenVoice 支援短樣本聲音克隆。中文特別來說，原生中文訓練的 TTS（字節跳動、騰訊、ElevenLabs 的中文模型）通常勝過後來才加中文的模型。聲音克隆是最有爭議的領域——10-30 秒音訊就能做出高品質克隆，引發詐騙跟冒充疑慮。ElevenLabs 跟 OpenAI 都對克隆聲音實施同意驗證跟浮水印。延伸閱讀：speech-to-text、multi-modal、voice cloning。