規格
- 模態
- audio
- Tool use
- —
- 視覺
- —
- Streaming
- —
- License
- mit
- 釋出
- 2023-11-06
價格
Whisper Large v3 是 OpenAI 在 MIT 授權下開源的旗艦語音轉文字模型,用 68 萬小時音訊訓練,涵蓋 99 種語言含繁中(台灣腔)、廣東話、普通話表現都不錯。可以下載權重自架,也可以走 OpenAI API($0.006/分鐘)。支援轉錄、譯成英文、詞層時間戳。
編輯試用心得
幾乎任何 builder 流程的預設語音轉文字,多語表現真的比商用替代品好,A10G 或 M2 Mac 自架就能跑近即時。Faster-Whisper / WhisperX wrapper 可加串流跟說話人分離。弱點:在無聲段會幻覺生句子,正式環境一定要前置 VAD(人聲偵測)過濾。
評論
還沒有人留評論。當第一個。
最後更新: 2026-04-29