Geminiは、検索、メール、ドキュメント、スライド、動画、音楽、スマートグラスなど、Googleの各サービスと深く連携し、ユーザーの代わりに作業を進める方向へ進化しています。
| カテゴリー | ベンチマーク (テストの詳細) | Gemini 3.5 Flash | Gemini 3 Flash | Gemini 3.1 Pro | Claude Sonnet 4.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|---|---|---|
| コーディング | Terminal-bench 2.1 (Terminus-2 ハーネス) |
76.2% | 58.0% | 70.3% | – | 66.1% | 78.2% |
| SWE-Bench Pro (Public) (単一試行でのエージェントタスク) |
55.1% | 49.6% | 54.2% | – | 64.3% | 58.6% | |
| エージェント機能 | MCP Atlas (MCPを使用した複数ステップのワークフロー) |
83.6% | 62.0% | 78.2% | 69.5% | 79.1% | 75.3% |
| Toolathlon (現実世界の一般的なツール使用) |
56.5% | 49.4% | – | – | – | 55.6% | |
| UI制御 | OSWorld-Verified (エージェントによるPC操作) |
78.4% | 65.1% | 76.2% | 72.5% | 78.0% | 78.7% |
| 専門的タスク | Finance Agent v2 (財務分析と意思決定) |
57.9% | 42.6% | 43.0% | 51.0% | 51.5% | 51.8% |
| GDPval-AA (経済的価値のある知識労働: Elo) |
1656 | 1204 | 1314 | 1676 | 1753 | 1769 | |
| マルチモーダル | CharXiv Reasoning (複雑な図表からの情報統合: ツールなし) |
84.2% | 80.3% | 83.3% | 72.4% | 82.1% | 84.1% |
| MMMU-Pro (マルチモーダルの理解と推論: ツールなし) |
83.6% | 81.2% | 80.5% | 74.5% | 75.2% | 81.2% | |
| Blueprint-Bench 2 (エージェントの空間推論: 正規化スコア) |
33.6% | 0.0% | 26.5% | 6.7% | 24.5% | 36.2% | |
| 長文コンテキスト | MRCR v2 (8-needle) (128k 平均) |
77.3% | 67.2% | 84.9% | 84.9% | 59.3% | 94.8% |
| MRCR v2 (8-needle) (1M ポイントワイズ) |
26.6% | 22.1% | 26.3% | – | – | – | |
| 推論 | Humanity’s Last Exam (学術的推論: テキスト+マルチモーダル) |
40.2% | 33.7% | 44.4% | 33.2% | 46.9% | 41.4% |
| ARC-AGI-2 (抽象的推論パズル) |
72.1% | 33.6% | 77.1% | 58.3% | 75.8% | 84.6% |
出典リンク: https://deepmind.google/models/evals-methodology/gemini-3-5-flash/
Gemini 3.5 Flash
高速で軽量な新モデル。処理速度が速く、実務で使いやすいモデルとして位置づけられています。

Gemini Spark
Geminiのエージェント機能。Google Workspaceや外部アプリと連携し、複数の情報をもとに作業を進めることができます。
Skills機能
よく使う作業手順やテンプレートを保存し、再利用できる仕組みです。
Google Flow
動画生成・編集・音楽生成を支援する制作向けAIツール。自然言語で制作作業を進められる方向に進化しています。
Google検索のAI強化
検索結果にAIがより深く入り、調査や情報整理を支援する機能が強化されています。
Generative UI
検索結果や説明の中に、動く図解や操作できるUIを生成する機能が紹介されています。
スマートグラス
Samsungやメガネブランドとの協業により、Geminiを搭載したスマートグラスの展開が進められています。
Googleは、Geminiを単なるチャットAIではなく、検索・資料作成・制作・日常業務を横断して支援するエージェント型AIへ進化させようとしています。
今後のAI活用は、どこも「AIに何を聞くか」だけでなく、AIにどの作業を任せるかが重要になります。



