Gemini 3 Pro と他社とのベンチマーク比較

ブログ

「お勉強ができるAI → 仕事ができるAI」になった感もある。
正直、Gemini 3 により「GoogleがAI覇権に再浮上した」印象

ベンチマーク名テスト内容(日本語)Gemini 3 ProGemini 2.5 ProClaude Sonnet 4.5GPT-5.1
Humanity’s Last Exam学術的推論37.5% /(検索+コード実行: 45.8%21.6%13.7%26.5%
ARC-AGI-2高度な視覚パズル推論31.1%4.9%13.6%17.6%
GPQA Diamond最難関の科学知識テスト91.9%86.4%83.4%88.1%
AIME 2025数学(AIME)95.0%(コード実行: 100%88.0%87.0%(コード実行 100%)94.0%
MathArena Apex上級数学コンテスト問題23.4%0.5%1.6%1.0%
MMMU-Proマルチモーダル推論81.0%68.0%68.0%76.0%
ScreenSpot-Pro画面理解(UI 解析)72.7%11.4%36.2%3.5%
CharXiv Reasoning複雑な図表からの情報推論81.4%69.6%68.5%69.5%
OmniDocBench 1.5OCR(文書の読み取り)※低いほど良い0.1150.1450.1450.147
Video-MMMU動画からの知識抽出87.6%83.6%77.8%80.4%

科学知識(GPQA Diamond)で首位
画面理解(ScreenSpot-Pro)は他のモデルを圧倒。AIAgentに有利
数学(AIME)もコード実行で満点を取る
視覚パズル(ARC-AGI-2)で 2.5 Pro から大幅改善

岡山のホームページ作成