失敗するのはどんなとき?OCR(文字認識)「できる時」と「できない時」の比較

ブログ

スキャンした書類や画像を文字データに変換してくれる OCR(光学文字認識)。とても便利な技術ですが、「うまく変換できる時」と「全然認識してくれない時」があります。
実際に「これはOCRできる/できない」を見分ける方法を整理してみます。

OCRが得意なケース

OCRがスムーズに動作するのは、次のような条件が揃っている時です。

  • 活字(印刷文字):標準的なフォント、規則正しい配置
  • 高解像度:300dpi以上、文字の輪郭がくっきり
  • 明瞭なコントラスト:白地に黒文字など背景と文字の区別がはっきり
  • シンプルなレイアウト:横書きで段組みがなく、行や列が整っている

こうした条件では、ほぼ間違いなく文字データに変換できます。

OCRが苦手なケース

逆に、以下のような条件が揃うと精度は一気に落ちます。

  • 手書き文字や崩し字
  • 低解像度のスキャン(200dpi以下)
  • にじみやノイズのある印刷、JPEGの圧縮ノイズ
  • 縦書きや複雑なレイアウト(新聞や帳票など)
  • 背景が濃い色や網掛け

ただし、最近のOCRソフトは縦書きへの対応も進んでいるため、「苦手だが不可能ではない」というのが実情です。人間には読めても、OCRにとっては「ただの模様」に見えてしまうことがあるのです。

PDFが「できる/できない」の理由

OCRの可否はPDFの性質にも関わります。

  • テキストベースPDF(Wordなどから直接書き出したPDF)
     → 文字情報が埋まっているのでOCR不要。検索やコピーが可能。
  • イメージベースPDF(紙をスキャンしてPDF化したもの)
     → ただの画像なのでOCR必須。検索やコピー不可。
  • ハイブリッドPDF(画像の上に透明なテキスト層を載せたもの)
     → 見た目はスキャン画像でも検索可能。

PDFを開いてコピーや検索ができるか試すだけで判別できます。

「スクショすると読める」現象

元の画像では認識できなかった文字が、スクリーンショットにすると読めることが多いです。

理由は次の通りです。

  • スクショ時に再描画され、文字の輪郭が補正される
  • JPEGからPNGに変換されることで圧縮ノイズが減る
  • 高解像度ディスプレイでは、スクショの方が実際に鮮明になる

つまり「人間に見やすくなる」=「OCRにとっても認識しやすくなる」という仕組みです。

OCRできるかどうかの仕分け方法

最後に、誰でも使えるチェックリストを。

  • コピーできる?検索できる?
     YES → 文字データあり → OCR不要
     NO → 画像扱い → OCR必要
  • ズームして文字が潰れないか?
     潰れない → 成功率が高い目安
     ぼやける/ガタガタ → 認識失敗しやすい
  • レイアウトは単純?複雑?
     単純 → OCR得意
     段組みや網掛け → OCR苦手
岡山のホームページ作成