Gemini 3 Pro と他社とのベンチマーク比較

「お勉強ができるAI → 仕事ができるAI」になった感もある。
正直、Gemini 3 により「GoogleがAI覇権に再浮上した」印象

ベンチマーク名	テスト内容（日本語）	Gemini 3 Pro	Gemini 2.5 Pro	Claude Sonnet 4.5	GPT-5.1
Humanity’s Last Exam	学術的推論	37.5% /（検索＋コード実行: 45.8%）	21.6%	13.7%	26.5%
ARC-AGI-2	高度な視覚パズル推論	31.1%	4.9%	13.6%	17.6%
GPQA Diamond	最難関の科学知識テスト	91.9%	86.4%	83.4%	88.1%
AIME 2025	数学（AIME）	95.0%（コード実行: 100%）	88.0%	87.0%（コード実行 100%）	94.0%
MathArena Apex	上級数学コンテスト問題	23.4%	0.5%	1.6%	1.0%
MMMU-Pro	マルチモーダル推論	81.0%	68.0%	68.0%	76.0%
ScreenSpot-Pro	画面理解（UI 解析）	72.7%	11.4%	36.2%	3.5%
CharXiv Reasoning	複雑な図表からの情報推論	81.4%	69.6%	68.5%	69.5%
OmniDocBench 1.5	OCR（文書の読み取り）※低いほど良い	0.115	0.145	0.145	0.147
Video-MMMU	動画からの知識抽出	87.6%	83.6%	77.8%	80.4%