Whisper は OpenAI が開発した音声認識(Speech-to-Text)AI モデル

ブログ

高精度録音&文字起こしアプリを探していていると「Whisper」がおすすめと出てくる。
Whisper は OpenAI が開発した音声認識(Speech-to-Text)AI モデル。
個人的には、「GoodTape」一択だが、無料仕様にこだわるなら予備ツールとしては良いと思います。
ただ、時間がすごくかかるのでそこは注意が必要です。

無料 & 高精度
 AIモデルが非常に優秀 で、他の音声認識ツールと比べても 日本語の認識精度が最も高いレベル
・無料で使える(オープンソース)。
長時間の録音データでも高精度で文字起こし可能

Whisper Webの利用方法:

  1. Whisper Webにアクセスする:
    • 以下のリンクからWhisper Webのページに移動します。
  2. 音声ファイルのアップロード:
    • ページ上の「From file」ボタンをクリックし、文字起こししたい音声ファイル(例:MP3、WAV形式)を選択します。
  3. 設定の確認(任意):
    • 右下の歯車アイコンをクリックすると、設定メニューが表示されます。ここでモデルのサイズや言語設定を調整できます。デフォルトでは軽量なモデルが選択されていますが、精度を重視する場合は大きなモデルを選ぶことも可能です。
  4. 文字起こしの開始:
    • 「Transcribe Audio」ボタンをクリックすると、文字起こしが開始されます。処理時間は音声ファイルの長さによりますが、通常は数分以内で完了します。
  5. 結果の確認と保存:
    • 文字起こしが完了すると、テキスト結果が表示されます。「Export JSON」ボタンをクリックして、結果をJSON形式でダウンロードすることも可能です。


遅いです

Whisper Webは、特別な設定やインストールを必要とせず簡単だが、使ってみる限り翻訳は不安定。文章を整えるには、ChatGPTなどで精製した方が良いきがするが、設定もできるようです。

左の乱れた文を精製するChatGPT.優秀です。
岡山のホームページ作成