系統別まとめ( ⇒ は後継・改良版を示す)
| 系統 | モデルの流れ | 主な特徴・得意分野 |
|---|---|---|
| GPT-4 系列 | GPT-4.1 ⇒ GPT-4o ⇒ GPT-4.5 | 4.1:精密コード生成・長文指示 4o:マルチモーダル万能型(テキスト・画像・音声・動画) 4.5:共感トーンの文章作成・丁寧なコミュニケーション |
| o 系列 | o1-pro ⇒ o3 ⇒ o4-mini ⇒ o4-mini-high | o1-pro:高精度レポート・慎重型 o3:長文分析・戦略立案の最強エンジン o4-mini:高速・軽量の技術サポート o4-mini-high:o4-miniの精度強化版(高度な設計・理論解説) |
系統別・代表ベンチマークで見る改良幅
(※公開されている公式 System Card や第三者検証レポートから抜粋。値は 2024–25 年時点)
| 系統 | モデル | 代表ベンチマーク ①<br>MMLU (% 正答) | 代表ベンチマーク ②<br>Coding / SWE-bench Verified (% 完成) | 代表ベンチマーク ③<br>その他改善指標 | 主な伸び幅 |
|---|---|---|---|---|---|
| GPT-4 系列 | GPT-4.1 | 80.1 % (MMLU nano variant) OpenAI | 54.6 % (+21.4 pt vs 4o) OpenAI | Context 1M tokens・速度 ≒124 tok/s Artificial Analysis | 4o比で実用コード生成と長文指示追従が大幅向上 |
| GPT-4o | 88.7 % (+8.6 pt vs 4.1 nano) Vellum AI | 33.2 % (基準点) OpenAI | 109 tok/s vs 20 tok/s (GPT-4 Turbo)/API価格-50 % Vellum AIOpenAI | 高速化・多モーダル対応 | |
| GPT-4.5 Preview | 89.6 % (+0.9 pt vs 4o, 英語) AIbase | 38 % (SWE-bench、+4.8 pt vs 4o) OpenAI | Hallucination rate 19 % (-11 pt vs 4o) OpenAI | 精度は微増だが計算量大・コスト高で API は段階的終了予定 | |
| o 系列 | o1-pro | ― | ― | 基準モデル | — |
| o3 | ―(SOTA多数) | ― | 重大エラー-20 % vs o1 OpenAI | 論理・分析性能を大幅改善 | |
| o4-mini | ― | AIME 2025 pass@1 99.5 % (+1.1 pt vs o3) OpenAI | 同等タスクで o3-mini よりコスト- スループット向上 | 小型でも頂点級の数学・コード性能 | |
| o4-mini-high | 高 reasoning 設定(公開値なし) | — | Plus/Pro の高精度モード | 公開ベンチ未発表(現状は o4-mini の高温設定版) |
どの数字を見れば「改良幅」が分かるか
- 汎用知識・推論
GPT-4 系列は大学試験相当の MMLU が最も比較しやすい。- 4.1 → 4o で +8.6 pt(80.1 → 88.7)
- 4o → 4.5 では +0.9 pt と飽和傾向。
- 実務コード生成
SWE-bench Verified(GitHub 実課題修正)で- 4o 33.2 % → 4.1 54.6 % (+21 pt)。
GPT-4.5 Preview は 4o 比では +5 pt 程度に留まる。
- 4o 33.2 % → 4.1 54.6 % (+21 pt)。
- 速度・コスト
GPT-4o は GPT-4 Turbo 比で- 出力速度 5.4×(109 vs 20 tok/s)
- API 料金 ½。
o4-mini は o3-mini より同等精度でレート上限大幅増。
※ o 系列は学術ベンチより実タスク指向。AIME pass@1(高校数学)や外部エラー率など、専用領域で 1–2 pt の詰めが続いている。公開ベンチが少ないため、OpenAI の System Card に示された 「重大エラー-20 %」 の様な品質指標が主な比較軸になる。
まとめ — 数値で見た改良傾向
- GPT-4.1 → 4o:速度・多モーダル化と同時に推論精度も 1 桁後半~2 桁 の大幅アップ。
- GPT-4o → 4.5:高度タスクでの微増と安全性強化が中心。コスト効率はやや悪化。
- o1-pro → o3/o4-mini:大型化せずに重大エラー率や数学ベンチで +1–2 pt、コスト当たり性能が向上。
「改良型がどれだけ良くなったか」を定量で把握するなら、
- MMLU / GPQA(知識・推論)
- SWE-bench / HumanEval(コード)
- AIME・MMMU(数学・マルチモーダル)
など同系統で連続公開されている指標に注目すると差分が明快です



