跳到內容

任務

文字轉語音 (TTS)

Text-to-speech (TTS)

把文字轉成語音的任務,現代 neural TTS 系統(ElevenLabs、OpenAI TTS、Google)能產出接近人聲、可複製、有情感、多語言的聲音。

登入以收藏
Text-to-speech(TTS)是把文字轉成語音的任務。舊的 TTS 系統聽起來機器人感重;現代 neural TTS——由 transformer 跟 diffusion 架構驅動——產出的聲音常跟人類語音難以區分,能控制情感、語速、語言。 它重要的原因是:TTS 解鎖很多 audio-first 產品類別:有聲書旁白、podcast 生成、可及性工具(盲人螢幕閱讀)、影片配音、語言學習 app、會說話的 AI agent(ChatGPT 跟 Gemini 的語音模式)、IVR / 電話樹取代。對內容創作者,TTS 讓你能規模化產出語音內容,不用進錄音間。 領先供應商:ElevenLabs(消費者品質語音克隆,podcast/有聲書市場主導)、OpenAI TTS(內建 API,多個聲音)、Google WaveNet 跟其後繼、Amazon Polly、Azure TTS。Open-source 選項像 XTTS-v2、OpenVoice 支援短樣本聲音克隆。中文特別來說,原生中文訓練的 TTS(字節跳動、騰訊、ElevenLabs 的中文模型)通常勝過後來才加中文的模型。 聲音克隆是最有爭議的領域——10-30 秒音訊就能做出高品質克隆,引發詐騙跟冒充疑慮。ElevenLabs 跟 OpenAI 都對克隆聲音實施同意驗證跟浮水印。延伸閱讀:speech-to-text、multi-modal、voice cloning。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

文字轉語音 (TTS) · BuilderWorld