Whisper Banner

OpenAI 的 Whisper 模型具備了語音轉文字能力,而網路上也有不少熱心開發者利用了 Whisper 的 C/C++ 移植版推出了 Web 介面的語音轉文字工具,讓有需要的使用者可以更簡單地來將影片、音檔轉換為文字。

Whisper YouTube Corsslingual Subtitles

第一個要介紹的是建置在 Hugging Face 上的工具「Whisper YouTube Corsslingual Subtitles」,這個語音轉文字工具支援 YouTube 影片網址或是直接上傳影片檔案,並能透過 DeepL API 翻譯辨識出的文字以及下載 SRT 字幕檔案。

以下截圖是以台大電機工程學系副教授李宏毅老師在 YouTube 頻道上的影片做示範,這位老師在頻道上講解的機器學習相關主題內容非常有趣、易懂,十分推薦!

如果不太清楚要怎麼使用,可以按照下列步驟——

  • 首先在「YouTube Url」處貼上你要製作的 YouTube 影片網址,例如:https://youtu.be/ifCDXFdeaaM
  • 按下「Step 1. Download YouTube Video」讓系統下載影片
    • 「Spoken language in video」選單可以不用選擇,讓模型自行分析辨識
    • 「Selected Whisper model」是選擇模型的大小,一般來說「base」就足以應付不少需求,你也可以選擇「large」讓辨識結果更為清楚,但辨識速度就會比較慢
  • 按下「Step 2. Transcribe audio」讓模型開始辨識文字
    • 辨識後可以在「Transcription dataframe」處得到影片辨識結果並調整
  • 接下來是「Step 3. Translate transcription」
    • 這個翻譯功能使用了 DeepL API,並且有每月額度限制
    • 可以從下拉式選單從 26 種語言中選擇想要翻譯成哪種語言
    • 如果沒有需要翻譯,則選擇影片的主要語言即可
    • 按下「Step 3. Translate transcription」後,系統就會自動產生有時間碼以及字幕的表格
    • 最後則可以在下方下載 SRT 或者 VTT 字幕檔案。
  • 最後是「Step 4. Create and add subtitles to video」這個功能則可以讓你線上直接看影片跟字幕配對後的效果。

Whisper Subtitles

第二個類似工具則是架設在 Replicate 上的「Whisper Subtitles」,這個工具雖然不能直接使用 YouTube 上的影片,但可以上傳電腦上的影片或音檔,使用方法與「Whisper YouTube Corsslingual Subtitles」差不多。

只要在「audio_path」選擇好檔案,並根據需要更改「model_name」,最後的「format」則是選擇字幕檔格式,接著就可以選擇「submit」送出讓模型自動辨識語言以及產生字幕囉!

Jas

By Jas

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *