跳到內容

任務

語音轉文字 (STT / ASR)

Speech-to-text (STT/ASR)

把語音轉成文字的任務(也叫 ASR,自動語音辨識),最廣泛使用的模型是 OpenAI 的 Whisper。

登入以收藏
Speech-to-text(STT,又叫 ASR,自動語音辨識)是把語音轉成文字的任務。現代系統處理多語言、辨認說話者、給時間戳記、產生合理標點——全部在消費者硬體上接近即時完成。 它重要的原因是:音訊到處都是:會議錄音、podcast 訪談、客服電話、語音訊息、講座、口述。STT 把這些都轉成可搜尋、摘要、翻譯、索引、分析的文字。準確的 STT 加上 LLM 做摘要的組合,是多數「AI 會議筆記」產品(Otter、Granola、Read、Fireflies、Tactiq)的基礎。 改變遊戲規則的是 OpenAI 的 Whisper(2022 年開源)——多語言、對口音跟背景噪音 robust、可免費下載本地跑。Whisper 基本上拉高了整個產業的準確率底線。Whisper-large-v3、distil-Whisper、faster-whisper 等變體持續改進速度跟品質。 對中文,Whisper 處理普通話 OK;專用模型如 FunASR(阿里)跟 Paraformer 在某些中文口音跟噪音場景可能更好。即時串流 STT 做 live captioning 有自己的變體模型。延伸閱讀:text-to-speech、multi-modal、Whisper、ASR。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more