Google I/O 発表まとめ:後ほどチェック用

ブログ

Geminiは、検索、メール、ドキュメント、スライド、動画、音楽、スマートグラスなど、Googleの各サービスと深く連携し、ユーザーの代わりに作業を進める方向へ進化しています。

カテゴリー ベンチマーク (テストの詳細) Gemini 3.5 Flash Gemini 3 Flash Gemini 3.1 Pro Claude Sonnet 4.6 Claude Opus 4.7 GPT-5.5
コーディング Terminal-bench 2.1
(Terminus-2 ハーネス)
76.2% 58.0% 70.3% 66.1% 78.2%
SWE-Bench Pro (Public)
(単一試行でのエージェントタスク)
55.1% 49.6% 54.2% 64.3% 58.6%
エージェント機能 MCP Atlas
(MCPを使用した複数ステップのワークフロー)
83.6% 62.0% 78.2% 69.5% 79.1% 75.3%
Toolathlon
(現実世界の一般的なツール使用)
56.5% 49.4% 55.6%
UI制御 OSWorld-Verified
(エージェントによるPC操作)
78.4% 65.1% 76.2% 72.5% 78.0% 78.7%
専門的タスク Finance Agent v2
(財務分析と意思決定)
57.9% 42.6% 43.0% 51.0% 51.5% 51.8%
GDPval-AA
(経済的価値のある知識労働: Elo)
1656 1204 1314 1676 1753 1769
マルチモーダル CharXiv Reasoning
(複雑な図表からの情報統合: ツールなし)
84.2% 80.3% 83.3% 72.4% 82.1% 84.1%
MMMU-Pro
(マルチモーダルの理解と推論: ツールなし)
83.6% 81.2% 80.5% 74.5% 75.2% 81.2%
Blueprint-Bench 2
(エージェントの空間推論: 正規化スコア)
33.6% 0.0% 26.5% 6.7% 24.5% 36.2%
長文コンテキスト MRCR v2 (8-needle)
(128k 平均)
77.3% 67.2% 84.9% 84.9% 59.3% 94.8%
MRCR v2 (8-needle)
(1M ポイントワイズ)
26.6% 22.1% 26.3%
推論 Humanity’s Last Exam
(学術的推論: テキスト+マルチモーダル)
40.2% 33.7% 44.4% 33.2% 46.9% 41.4%
ARC-AGI-2
(抽象的推論パズル)
72.1% 33.6% 77.1% 58.3% 75.8% 84.6%

出典リンク: https://deepmind.google/models/evals-methodology/gemini-3-5-flash/

Gemini 3.5 Flash
高速で軽量な新モデル。処理速度が速く、実務で使いやすいモデルとして位置づけられています。

Gemini Spark
Geminiのエージェント機能。Google Workspaceや外部アプリと連携し、複数の情報をもとに作業を進めることができます。

Skills機能
よく使う作業手順やテンプレートを保存し、再利用できる仕組みです。

Google Flow
動画生成・編集・音楽生成を支援する制作向けAIツール。自然言語で制作作業を進められる方向に進化しています。

Google検索のAI強化
検索結果にAIがより深く入り、調査や情報整理を支援する機能が強化されています。

Generative UI
検索結果や説明の中に、動く図解や操作できるUIを生成する機能が紹介されています。

スマートグラス
Samsungやメガネブランドとの協業により、Geminiを搭載したスマートグラスの展開が進められています。

Googleは、Geminiを単なるチャットAIではなく、検索・資料作成・制作・日常業務を横断して支援するエージェント型AIへ進化させようとしています。
今後のAI活用は、どこも「AIに何を聞くか」だけでなく、AIにどの作業を任せるかが重要になります。

岡山のホームページ作成