MacWhisper:讓 AI 免費幫你將中文語音檔轉成逐字稿

MacWhisper 是基於 OpenAI 語音辨識的技術 Whisper 打造而成的。不僅能辨識中文、英文等 100 種以上的語言,還可以在本機執行(不用把檔案上傳到網路),並直接輸出 txt、csv 及字幕專用的 srt、vtt 格式,堪稱是我目前用過最好用的自動語音轉文字工具。

MacWhisper 支援上傳 mp3、wav、m4a 跟 mp4 檔案,有免費版和付費版。免費版只能使用 Tiny、Base 和 Small 三種模型,轉換速度快、準確率較低;付費版增加了 Medium 及 Large 模型,轉換速度慢很多,但據說準確率會大幅提升。

官方建議電腦規格在 M1 或 M2 以上比較好,我沒有這麼好的電腦,只好先用 2016 老 MacBook Pro 實測,結果如下:

45 分鐘左右的音檔,用 Base 模型約需 2、30 分鐘左右進行轉換,而準確率大概只有四、五成。看到這個準確率我就沒有往下嘗試 Tiny 模型。

從 Base 往上升一級到 Small 後,轉換時間拉長到 2 個半小時,可是準確率已經驚人地提升到九成以上,就算是中英夾雜它也可以準確辨別,幾乎只需要改錯字!(2023/3/28 更新:手邊有 MacBook Pro M2 測了一下,一小時錄音檔,5 分鐘轉完)

個人覺得免費版的 Small 模型已經很夠用了。只要你的電腦比我新,轉換時間應該都會比我快很多。

缺點是目前只有 macOS 可以使用這個工具,免費能使用的模型也有限,若你需要使用更高模型或你是 Windows 使用者,可以參考文末的「直接使用 Whisper 服務」來使用。

另外我沒找到臺語/閩南語/客語的語言選項,實測講臺語它好像聽不懂(2023/4/7 更新:其實聽得懂,只是之前準確率太低被我誤會,臺語要到 Medium 以上的模型才比較堪用,語言選擇 Chinese 即可;客語有請各方大德測試後跟我說,我再補進來),若有這方面需求可能還是要找本土的服務雅婷逐字稿

下載連結
前往下載 MacWhisper →

下載方式

進入 MacWhisper 的下載頁面,第一個為免費版,其餘為付費版。選擇想要的版本後點「我要這個!」。

MacWhisper 下載教學

如果是免費版,下一步因為是 0 元,只要填寫 Email 就好。付費版則還需填寫付款資訊。

MacWhisper 下載教學 2

會出現一個解壓縮檔案,點下載即可。那個許可密鑰我找不到地方填,不知道是什麼,就還是請大家好好保管吧⋯⋯

MacWhisper 下載教學 3

使用教學

剛開始會需要下載一個模型,越準確的模型下載時間越久,Medium、Large 和英文的 Tiny 模型是付費版功能。我下載了 Multiple Languages 的 Tiny、Base、Small,再視要處理的檔案複雜度選擇模型。

MacWhisper 模型

MacWhisper 的使用方式很直覺,拖拉檔案進去即可。另外也能即時錄音存成錄音檔,之後再傳檔案上去轉文字,很適合做會議紀錄或喜歡用語音輸入的人使用。

MacWhisper 開頭畫面

特別的是,即使在轉換途中,也可以隨時修改已經產生的逐字稿。除了修改,也能直接跳到該句話時間軸、複製內文、星號標註、刪除等。

MacWhisper 功能

上方功能列由左至右分別為:取代整段錄音檔的特定文字、切換觀看模式(帶時間軸/純文字)、切換文字大小、使用閱讀模式(不斷行)、複製選取的段落、取代選取段落的特定文字、輸出檔案、標記發話者、搜尋。

下面是不同觀看模式的示意圖。

切換輸出格式

輸出時除了字幕用的 srt、vtt 格式,也可以選擇純文字(Text)及文字段落(Text with paragraphs)。要輸出文字段落要先建立發話者,再手動標記每個段落。點選上方功能列的雙人圖示,就會跳出這個,按「New Speaker」就能建立新角色。

標記發話者-1

標記的方式很簡單,對著要標記的段落右鍵就能選擇發話者。

標記發話者-2

選完會長這樣。

也支援多選,按著 Command 就能自選不連續的段落進行標記。

輸出時 MacWhisper 就會自動將相同發話者的內容,整理在一起。可惜目前它還不會加標點。

標記發話者-5

做 UX 訪談或學術研究經常需要聽打逐字稿,過往只能依賴雅婷逐字稿oTranscribe,然而前者有免費額度限制,後者只能作為輔助,無法直接語音辨識轉文字。同樣運用 AI 技術的線上語音轉文字服務「Good Tape」則是採用線上傳檔,難免還是有隱私安全的顧慮。

有了 MacWhisper 這樣的服務,就再也不用以 0.5 倍速播音檔一字一句聽打,人生多出更多開心生活的時間,不是很讚嗎?

直接使用 Whisper 服務

本文介紹的 MacWhisper 只能免費使用 Tiny(英文以外)、Base、Small 這三個模型,但如果你需要更精準的輸出結果,又剛好會寫一點程式,可以直接使用它的核心技術——也就是 OpenAI Whisper——就可以免費使用到 Medium 跟 Lagre 的模型(至少目前免費)。

2 則留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *