動画テロップ(SRT)をAIで作るシンプル手順

ブログ

動画と字幕問題。動画のテロップって、実は「どのAIを使うか」よりも「どの段階で漢字と改行を人間が直すか」で品質が決まります。AIに全部やらせると、だいたい句読点がポンコツになりますので、そこだけは人間の出番です。そういうところで人類はまだ役に立ちます。

  1. 素材を用意する
    • 基本はmp4でOK
    • 長くて重くエラーが頻発するならmp3にして軽くする
  2. AIに投げる(Gemini / Google AI Studio など)
    • 「この音声(動画)を文字起こしして、SRT形式で出して」と指示する
    • mp3でもSRTは作れる(ツールが対応していればOK)
  3. SRTを動画編集ソフトに読み込む
    • Premiere / DaVinci / CapCutなど
    • あとはフォント・位置・色を整えるだけ
動画ソフト:DaVinci Resolve 20 無料で高機能

  • mp3にしても「課金が必ず安くなる」わけではない(音声処理のほうが高いこともある)
  • mp3化の目的は「軽くして失敗しにくくする」こと
  • Manusでやると長時間を一気にやっても安定してる気がする。

これだけ押さえておけば回せます。

注意点
元動画の音がすでに圧縮強めなら、さらにmp3にすると聞き取り精度が下がることもあるので、そのときは一時的にwavにするほうが安全です
mp3にすると映像がないのでシーン変わりでの区切りができない
 → なので自動字幕でも行数や改行が雑になりがち
会議音声とか、複数人・被り・環境音があるときはmp4のほうが精度が上がることもあります(音声と映像の手がかりを使うタイプのモデルだと特に)

岡山のホームページ作成