失敗するのはどんなとき？OCR（文字認識）「できる時」と「できない時」の比較

ブログ

2025.09.05

スキャンした書類や画像を文字データに変換してくれる OCR（光学文字認識）。とても便利な技術ですが、「うまく変換できる時」と「全然認識してくれない時」があります。
実際に「これはOCRできる／できない」を見分ける方法を整理してみます。

OCRが得意なケース

OCRがスムーズに動作するのは、次のような条件が揃っている時です。

活字（印刷文字）：標準的なフォント、規則正しい配置
高解像度：300dpi以上、文字の輪郭がくっきり
明瞭なコントラスト：白地に黒文字など背景と文字の区別がはっきり
シンプルなレイアウト：横書きで段組みがなく、行や列が整っている

こうした条件では、ほぼ間違いなく文字データに変換できます。

OCRが苦手なケース

逆に、以下のような条件が揃うと精度は一気に落ちます。

手書き文字や崩し字
低解像度のスキャン（200dpi以下）
にじみやノイズのある印刷、JPEGの圧縮ノイズ
縦書きや複雑なレイアウト（新聞や帳票など）
背景が濃い色や網掛け

ただし、最近のOCRソフトは縦書きへの対応も進んでいるため、「苦手だが不可能ではない」というのが実情です。人間には読めても、OCRにとっては「ただの模様」に見えてしまうことがあるのです。

PDFが「できる／できない」の理由

OCRの可否はPDFの性質にも関わります。

テキストベースPDF（Wordなどから直接書き出したPDF）
　→ 文字情報が埋まっているのでOCR不要。検索やコピーが可能。
イメージベースPDF（紙をスキャンしてPDF化したもの）
　→ ただの画像なのでOCR必須。検索やコピー不可。
ハイブリッドPDF（画像の上に透明なテキスト層を載せたもの）
　→ 見た目はスキャン画像でも検索可能。

PDFを開いてコピーや検索ができるか試すだけで判別できます。

「スクショすると読める」現象

元の画像では認識できなかった文字が、スクリーンショットにすると読めることが多いです。

理由は次の通りです。

スクショ時に再描画され、文字の輪郭が補正される
JPEGからPNGに変換されることで圧縮ノイズが減る
高解像度ディスプレイでは、スクショの方が実際に鮮明になる

つまり「人間に見やすくなる」＝「OCRにとっても認識しやすくなる」という仕組みです。

OCRできるかどうかの仕分け方法

最後に、誰でも使えるチェックリストを。

コピーできる？検索できる？
　YES → 文字データあり → OCR不要
　NO → 画像扱い → OCR必要
ズームして文字が潰れないか？
　潰れない → 成功率が高い目安
　ぼやける／ガタガタ → 認識失敗しやすい
レイアウトは単純？複雑？
　単純 → OCR得意
　段組みや網掛け → OCR苦手

岡山のホームページ作成

Post Views: 91