跳到內容
Whisper Large v3 logo

MODELS · 模型目錄

Whisper Large v3

OpenAI 開源語音轉文字,多語、穩、可自架

openaiwhisperopen source

規格

模態
audio
Tool use
視覺
Streaming
License
mit
釋出
2023-11-06

價格

Whisper Large v3 是 OpenAI 在 MIT 授權下開源的旗艦語音轉文字模型,用 68 萬小時音訊訓練,涵蓋 99 種語言含繁中(台灣腔)、廣東話、普通話表現都不錯。可以下載權重自架,也可以走 OpenAI API($0.006/分鐘)。支援轉錄、譯成英文、詞層時間戳。

編輯試用心得

幾乎任何 builder 流程的預設語音轉文字,多語表現真的比商用替代品好,A10G 或 M2 Mac 自架就能跑近即時。Faster-Whisper / WhisperX wrapper 可加串流跟說話人分離。弱點:在無聲段會幻覺生句子,正式環境一定要前置 VAD(人聲偵測)過濾。

評論

還沒有人留評論。當第一個。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more