「Google無料版」より安全なAPIのご紹介

ブログ

配送書類等の構造化JSON抽出(OCR + レイアウト解析)比較まとめ(2026年3月21日時点の公開情報に基づく)配送伝票や請求書などの画像から、特定の項目を抽出してJSON化する用途に最適な3モデルの比較です。前回Googleの無料版を紹介しましたが、プライバシーとデータ保護の観点は、法人利用や個人情報(配送伝票など)を扱う上で最も重要な項目です。
モデル学習への利用(データ流出リスク)」の行を追加し、Googleの無料版との違いが明確にわかるようにしました。

項目GLM-OCR (0.9B)Qwen3.5-0.8BKimi K2.5 (Sakura)
特徴OCR特化・SOTA精度VLM型・推論補正1T級・クラウド高性能
展開ローカル(vLLM等)ローカル(llama.cpp等)クラウドAPI
データ学習なし(完全遮断)なし(完全遮断)原則なし(API規約)
機密性◎(ネット不要)◎(ネット不要)〇(国内サーバー処理)
コスト無料(自前リソース)無料(自前リソース)3千回/月無料(以降従量)
OCR精度最強(94.6点/Bench)高(推論で補完)高(複雑書類に強い)
構造化抽出特化(要後処理)高(意味理解が可能)最高(複雑推論可)
導入難易度中(環境構築が必要)中(環境構築が必要)低(APIのみ)

選択のガイドライン(優先順位別)
1. 「ローカル完結・最高速度・純粋な読み取り精度」を重視する場合推奨:GLM-OCR 0.9B
大量の書類をバッチ処理する、あるいは機密性の高い文書を社内サーバーで処理する場合の最適解です。表形式(Table)の再現性が極めて高く、レイアウト崩れが少ないのが特徴です。
2. 「読み取りだけでなく、多少のデータ補正や意味付け」もしたい場合推奨:Qwen3.5-0.8B
VLMとしての基礎体力が高く、「誤字の自動修正」や「非定型項目からの推論抽出」を1ステップで行いたい場合に適しています。
3. 「導入コスト最小・運用管理の手間を削減」したい場合推奨:Kimi K2.5 (さくらのAI Engine)
ローカル環境の保守(GPUサーバーの管理など)を避けたい、あるいは月数千件程度の小〜中規模運用であれば、API経由で最高性能を安価に利用するのが最も効率的です。実務的な導入ステップ(推奨パターン)

  1. 検証:まずはAPIで手軽な Kimi K2.5 を使い、自社の書類がどこまでJSON化できるかテストする。
  2. 移行:精度に満足でき、かつコスト削減やセキュリティ強化が必要になった段階で、GLM-OCR または Qwen3.5 によるローカル運用へ切り替える。

Note:構造化JSONの出力安定性を高めるには、json_object モードの利用や、Pydantic等を用いたスキーマ定義との併用が推奨。

岡山のホームページ作成