跳到内容

任务

语音转文字 (STT / ASR)

Speech-to-text (STT/ASR)

把语音转成文字的任务(也叫 ASR,自动语音识别),最广泛使用的模型是 OpenAI 的 Whisper。

登入以收藏
Speech-to-text(STT,又叫 ASR,自动语音识别)是把语音转成文字的任务。现代系统处理多语言、识别说话者、给时间戳、产生合理标点——全部在消费者硬件上接近实时完成。 它重要的原因是:音频到处都是:会议录音、podcast 访谈、客服电话、语音消息、讲座、口述。STT 把这些都转成可搜索、摘要、翻译、索引、分析的文字。准确的 STT 加上 LLM 做摘要的组合,是多数「AI 会议笔记」产品(Otter、Granola、Read、Fireflies、Tactiq)的基础。 改变游戏规则的是 OpenAI 的 Whisper(2022 年开源)——多语言、对口音跟背景噪声 robust、可免费下载本地跑。Whisper 基本上拉高了整个产业的准确率底线。Whisper-large-v3、distil-Whisper、faster-whisper 等变体持续改进速度跟质量。 对中文,Whisper 处理普通话 OK;专用模型如 FunASR(阿里)跟 Paraformer 在某些中文口音跟噪声场景可能更好。实时流 STT 做 live captioning 有自己的变体模型。延伸阅读:text-to-speech、multi-modal、Whisper、ASR。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

语音转文字 (STT / ASR) · BuilderWorld