語音轉文字 (STT / ASR)

把語音轉成文字的任務（也叫 ASR，自動語音辨識），最廣泛使用的模型是 OpenAI 的 Whisper。

Speech-to-text（STT，又叫 ASR，自動語音辨識）是把語音轉成文字的任務。現代系統處理多語言、辨認說話者、給時間戳記、產生合理標點——全部在消費者硬體上接近即時完成。它重要的原因是：音訊到處都是：會議錄音、podcast 訪談、客服電話、語音訊息、講座、口述。STT 把這些都轉成可搜尋、摘要、翻譯、索引、分析的文字。準確的 STT 加上 LLM 做摘要的組合，是多數「AI 會議筆記」產品（Otter、Granola、Read、Fireflies、Tactiq）的基礎。改變遊戲規則的是 OpenAI 的 Whisper（2022 年開源）——多語言、對口音跟背景噪音 robust、可免費下載本地跑。Whisper 基本上拉高了整個產業的準確率底線。Whisper-large-v3、distil-Whisper、faster-whisper 等變體持續改進速度跟品質。對中文，Whisper 處理普通話 OK；專用模型如 FunASR（阿里）跟 Paraformer 在某些中文口音跟噪音場景可能更好。即時串流 STT 做 live captioning 有自己的變體模型。延伸閱讀：text-to-speech、multi-modal、Whisper、ASR。