動画と字幕問題。動画のテロップって、実は「どのAIを使うか」よりも「どの段階で漢字と改行を人間が直すか」で品質が決まります。AIに全部やらせると、だいたい句読点がポンコツになりますので、そこだけは人間の出番です。そういうところで人類はまだ役に立ちます。
- 素材を用意する
- 基本はmp4でOK
- 長くて重くエラーが頻発するならmp3にして軽くする
- AIに投げる(Gemini / Google AI Studio など)
- 「この音声(動画)を文字起こしして、SRT形式で出して」と指示する
- mp3でもSRTは作れる(ツールが対応していればOK)
- SRTを動画編集ソフトに読み込む
- Premiere / DaVinci / CapCutなど
- あとはフォント・位置・色を整えるだけ
- mp3にしても「課金が必ず安くなる」わけではない(音声処理のほうが高いこともある)
- mp3化の目的は「軽くして失敗しにくくする」こと
- Manusでやると長時間を一気にやっても安定してる気がする。
これだけ押さえておけば回せます。
注意点
元動画の音がすでに圧縮強めなら、さらにmp3にすると聞き取り精度が下がることもあるので、そのときは一時的にwavにするほうが安全です
mp3にすると映像がないのでシーン変わりでの区切りができない
→ なので自動字幕でも行数や改行が雑になりがち
会議音声とか、複数人・被り・環境音があるときはmp4のほうが精度が上がることもあります(音声と映像の手がかりを使うタイプのモデルだと特に)



