语音转文字 (STT / ASR)

把语音转成文字的任务（也叫 ASR，自动语音识别），最广泛使用的模型是 OpenAI 的 Whisper。

Speech-to-text（STT，又叫 ASR，自动语音识别）是把语音转成文字的任务。现代系统处理多语言、识别说话者、给时间戳、产生合理标点——全部在消费者硬件上接近实时完成。它重要的原因是：音频到处都是：会议录音、podcast 访谈、客服电话、语音消息、讲座、口述。STT 把这些都转成可搜索、摘要、翻译、索引、分析的文字。准确的 STT 加上 LLM 做摘要的组合，是多数「AI 会议笔记」产品（Otter、Granola、Read、Fireflies、Tactiq）的基础。改变游戏规则的是 OpenAI 的 Whisper（2022 年开源）——多语言、对口音跟背景噪声 robust、可免费下载本地跑。Whisper 基本上拉高了整个产业的准确率底线。Whisper-large-v3、distil-Whisper、faster-whisper 等变体持续改进速度跟质量。对中文，Whisper 处理普通话 OK；专用模型如 FunASR（阿里）跟 Paraformer 在某些中文口音跟噪声场景可能更好。实时流 STT 做 live captioning 有自己的变体模型。延伸阅读：text-to-speech、multi-modal、Whisper、ASR。