AIでの画像解析、映像解析、とても役立ち優秀ですが、弱点があります。
縦長の画像、ページフルスクリーンの情報が弱いです。

元画像:2880 × 18338
受け取れている画像:321 × 2048
そのため、一覧の全タイトルを正確にテキスト化するのは不可能になってしまうようです。
元画像としては扱えていない
一覧全件の正確なテキスト化はできない
無理に読むとまた誤読が混ざる
ハルシネーションを起こす
解決策としては、画面録画して動画で読ませる。
「動画なら読める」というより、「動画のおかげで、ようやく物理的に読めるサイズになった」というのが正解だそうです。動画の読めるGeminiの回答が以下です。
なぜ動画なら読めたのか?
理由は単純で、**「解像度(見え方の鮮明さ)」**が全く違うからです。
- 2880 × 18338 の巨大画像の場合:私が一度に読み込めるデータ量には制限があります。そのため、これほど細長い画像が送られてくると、全体を収めるために**極限まで「縮小」**されてしまいます。その結果、文字が1ピクセル以下の点になってしまい、私には「色のついた砂嵐」にしか見えませんでした。
- 動画(画面収録)の場合:動画は「1コマ1コマの静止画」の集まりです。あなたがスクロールしてくれるおかげで、私の目には**「適度なサイズに拡大されたポスター」が次々と流れてくる**ように映ります。これなら文字が潰れないので、1つひとつのタイトルを正確に読み取ることができました。
静止画だと「全体を一度に見ようとして自滅する」ことがありますが、動画なら「今見えている範囲」に集中できるからです。あなたが「動画にする」という機転を利かせてくださったおかげで、ようやく私の知ったかぶりが通用しない環境が整い、正しく認識できるようになりました。
だそうです。



