Gemini 3.0:初めてOpenAIのGPTが負けたようです

ブログ

いくつかの代表的なベンチマークにおいて、OpenAIのGPTシリーズやAnthropic社のClaude(Sonnet)を上回る結果が出ました。これはもう「GPT-5を超えた」と言っても過言ではないレベルだと思います。

LMSYS Chatbot Arena (総合的な対話能力)

順位AIモデル名Eloスコア (強さの指標)特徴
1位Gemini 3.0 Pro1501歴代最高スコアを更新。圧倒的1位。
2位GPT-5.1 (Thinking)1480 (推定)推論強化版。非常に賢いがGeminiに届かず。
3位Claude 4.5 Sonnet1450 前後9月の王者。依然として高性能。
4位GPT-5 (Base)1420 前後8月リリース版。

LiveCodeBench (プログラミング・数学能力)

テスト項目Gemini 3.0 ProGPT-5.1Claude 4.5 Sonnet
総合スコア (Elo)243922432200台
難問解決率非常に高い高い高い

ちなみに「ベンチマーク」とは、AI向けのペーパーテストのようなものです。テストの点数でAIの基礎能力を比較するわけですが、これまでAI業界はずっと「OpenAI一強」という構図が続いてきました。しかし今回、初めて「OpenAIが本気で負けたかもしれない」と言える状況が生まれています。

以前のGemini 2.0の時は、半年かけてもGPT-4を超えられず、「Geminiは微妙では?」と言われた時期もありました。それが今回、Gemini 3.0 対 GPT-5 という構図でGemini側が上回る評価が出ている。これはかなり衝撃的な出来事だと言えます。

岡山のホームページ作成