规格
- 模态
- audio
- Tool use
- —
- 视觉
- —
- Streaming
- —
- License
- mit
- 释出
- 2023-11-06
价格
Whisper Large v3 是 OpenAI 在 MIT 许可下开源的旗舰语音转文字模型,用 68 万小时音频训练,覆盖 99 种语言含简中、粤语、台湾腔表现都不错。可以下载权重自托管,也可以走 OpenAI API($0.006/分钟)。支持转录、译成英文、词级时间戳。
编辑试用心得
几乎任何 builder 流程的默认语音转文字,多语表现真的比商用替代品好,A10G 或 M2 Mac 自托管就能跑近实时。Faster-Whisper / WhisperX wrapper 可加流式和说话人分离。弱点:在无声段会幻觉生句子,生产环境一定要前置 VAD(人声检测)过滤。
评论
还没有人留评论。当第一个。
最后更新: 2026-04-29