高精度録音&文字起こしアプリを探していていると「Whisper」がおすすめと出てくる。
Whisper は OpenAI が開発した音声認識(Speech-to-Text)AI モデル。
個人的には、「GoodTape」一択だが、無料仕様にこだわるなら予備ツールとしては良いと思います。
ただ、時間がすごくかかるのでそこは注意が必要です。
・無料 & 高精度
AIモデルが非常に優秀 で、他の音声認識ツールと比べても 日本語の認識精度が最も高いレベル。
・無料で使える(オープンソース)。
・長時間の録音データでも高精度で文字起こし可能
Whisper Webの利用方法:
- Whisper Webにアクセスする:
- 以下のリンクからWhisper Webのページに移動します。
- 音声ファイルのアップロード:
- ページ上の「From file」ボタンをクリックし、文字起こししたい音声ファイル(例:MP3、WAV形式)を選択します。
- 設定の確認(任意):
- 右下の歯車アイコンをクリックすると、設定メニューが表示されます。ここでモデルのサイズや言語設定を調整できます。デフォルトでは軽量なモデルが選択されていますが、精度を重視する場合は大きなモデルを選ぶことも可能です。
- 文字起こしの開始:
- 「Transcribe Audio」ボタンをクリックすると、文字起こしが開始されます。処理時間は音声ファイルの長さによりますが、通常は数分以内で完了します。
- 結果の確認と保存:
- 文字起こしが完了すると、テキスト結果が表示されます。「Export JSON」ボタンをクリックして、結果をJSON形式でダウンロードすることも可能です。
Whisper Webは、特別な設定やインストールを必要とせず簡単だが、使ってみる限り翻訳は不安定。文章を整えるには、ChatGPTなどで精製した方が良いきがするが、設定もできるようです。





