ブログ Geminiによる動画解析は、映像、音声、テキストを同時に処理して高度に理解する機能で「マルチモーダルAI」の代表
Google Gemini(2.5 バージョンの Flash を含む)は、動画ファイルを直接アップロードして解析できる機能が実装されていますが、意外とすごい。1秒1フレーム解析+音声文字起こしという処理を行うことで、字幕だけでは得られない映像の内容も理解可能です。ただし、処理上の制約として、動画時間...
ブログ
ブログ