跳到内容
Whisper Large v3 logo

MODELS · 模型目录

Whisper Large v3

OpenAI 开源语音转文字,多语、稳、可自托管

openaiwhisperopen source

规格

模态
audio
Tool use
视觉
Streaming
License
mit
释出
2023-11-06

价格

Whisper Large v3 是 OpenAI 在 MIT 许可下开源的旗舰语音转文字模型,用 68 万小时音频训练,覆盖 99 种语言含简中、粤语、台湾腔表现都不错。可以下载权重自托管,也可以走 OpenAI API($0.006/分钟)。支持转录、译成英文、词级时间戳。

编辑试用心得

几乎任何 builder 流程的默认语音转文字,多语表现真的比商用替代品好,A10G 或 M2 Mac 自托管就能跑近实时。Faster-Whisper / WhisperX wrapper 可加流式和说话人分离。弱点:在无声段会幻觉生句子,生产环境一定要前置 VAD(人声检测)过滤。

评论

还没有人留评论。当第一个。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more