配送書類等の構造化JSON抽出(OCR + レイアウト解析)比較まとめ(2026年3月21日時点の公開情報に基づく)配送伝票や請求書などの画像から、特定の項目を抽出してJSON化する用途に最適な3モデルの比較です。前回Googleの無料版を紹介しましたが、プライバシーとデータ保護の観点は、法人利用や個人情報(配送伝票など)を扱う上で最も重要な項目です。
「モデル学習への利用(データ流出リスク)」の行を追加し、Googleの無料版との違いが明確にわかるようにしました。

| 項目 | GLM-OCR (0.9B) | Qwen3.5-0.8B | Kimi K2.5 (Sakura) |
|---|---|---|---|
| 特徴 | OCR特化・SOTA精度 | VLM型・推論補正 | 1T級・クラウド高性能 |
| 展開 | ローカル(vLLM等) | ローカル(llama.cpp等) | クラウドAPI |
| データ学習 | なし(完全遮断) | なし(完全遮断) | 原則なし(API規約) |
| 機密性 | ◎(ネット不要) | ◎(ネット不要) | 〇(国内サーバー処理) |
| コスト | 無料(自前リソース) | 無料(自前リソース) | 3千回/月無料(以降従量) |
| OCR精度 | 最強(94.6点/Bench) | 高(推論で補完) | 高(複雑書類に強い) |
| 構造化 | 抽出特化(要後処理) | 高(意味理解が可能) | 最高(複雑推論可) |
| 導入難易度 | 中(環境構築が必要) | 中(環境構築が必要) | 低(APIのみ) |
選択のガイドライン(優先順位別)
1. 「ローカル完結・最高速度・純粋な読み取り精度」を重視する場合推奨:GLM-OCR 0.9B
大量の書類をバッチ処理する、あるいは機密性の高い文書を社内サーバーで処理する場合の最適解です。表形式(Table)の再現性が極めて高く、レイアウト崩れが少ないのが特徴です。
2. 「読み取りだけでなく、多少のデータ補正や意味付け」もしたい場合推奨:Qwen3.5-0.8B
VLMとしての基礎体力が高く、「誤字の自動修正」や「非定型項目からの推論抽出」を1ステップで行いたい場合に適しています。
3. 「導入コスト最小・運用管理の手間を削減」したい場合推奨:Kimi K2.5 (さくらのAI Engine)
ローカル環境の保守(GPUサーバーの管理など)を避けたい、あるいは月数千件程度の小〜中規模運用であれば、API経由で最高性能を安価に利用するのが最も効率的です。実務的な導入ステップ(推奨パターン)
- 検証:まずはAPIで手軽な Kimi K2.5 を使い、自社の書類がどこまでJSON化できるかテストする。
- 移行:精度に満足でき、かつコスト削減やセキュリティ強化が必要になった段階で、GLM-OCR または Qwen3.5 によるローカル運用へ切り替える。
Note:構造化JSONの出力安定性を高めるには、json_object モードの利用や、Pydantic等を用いたスキーマ定義との併用が推奨。


