いくつかの代表的なベンチマークにおいて、OpenAIのGPTシリーズやAnthropic社のClaude(Sonnet)を上回る結果が出ました。これはもう「GPT-5を超えた」と言っても過言ではないレベルだと思います。
LMSYS Chatbot Arena (総合的な対話能力)
| 順位 | AIモデル名 | Eloスコア (強さの指標) | 特徴 |
| 1位 | Gemini 3.0 Pro | 1501 | 歴代最高スコアを更新。圧倒的1位。 |
| 2位 | GPT-5.1 (Thinking) | 1480 (推定) | 推論強化版。非常に賢いがGeminiに届かず。 |
| 3位 | Claude 4.5 Sonnet | 1450 前後 | 9月の王者。依然として高性能。 |
| 4位 | GPT-5 (Base) | 1420 前後 | 8月リリース版。 |
LiveCodeBench (プログラミング・数学能力)
| テスト項目 | Gemini 3.0 Pro | GPT-5.1 | Claude 4.5 Sonnet |
| 総合スコア (Elo) | 2439 | 2243 | 2200台 |
| 難問解決率 | 非常に高い | 高い | 高い |
ちなみに「ベンチマーク」とは、AI向けのペーパーテストのようなものです。テストの点数でAIの基礎能力を比較するわけですが、これまでAI業界はずっと「OpenAI一強」という構図が続いてきました。しかし今回、初めて「OpenAIが本気で負けたかもしれない」と言える状況が生まれています。
以前のGemini 2.0の時は、半年かけてもGPT-4を超えられず、「Geminiは微妙では?」と言われた時期もありました。それが今回、Gemini 3.0 対 GPT-5 という構図でGemini側が上回る評価が出ている。これはかなり衝撃的な出来事だと言えます。



