
ARC-AGI や GDPval の数字が上がっています。「説明し直す回数」と「手直しする回数」がはっきり減った、という一点に集約されます。
これは技術指標で言うと ARC-AGI と GDPval の伸びに対応していますが、体感としてはもっと身近です。
初見対応力:背景説明を省いても話が通りやすくなった
最初の一投で“文脈を読む力”が明らかに上がっています。
たとえば、
- 部署特有の言い回しが混じった議事録を渡して要点整理させる
- 例外だらけの業務フローを簡単に説明して改善案を出させる
- 過去経緯をざっくり書いただけの案件で、次の打ち手を考えさせる
こうしたタスクで、「前提の読み違い」が減りました。
完璧ではありませんが、仮説の立て方が現実寄りになり、修正も速いようです。
人間が「それ違う」と言う前に、自分で軌道修正している感覚があります。
成果物耐性:ドラフトが“たたき”ではなく“半完成品”で出てくる
- 議事録 → 意思決定メモ
- 要件整理 → PRD のたたき
- 調査メモ → 比較表+結論案
といった作業で、「直せば出せる」ではなく「少し直せばそのまま使える」状態で返ってくることが増えたように思います。
特に効いているのは、
- 観点漏れが減った
- 結論と根拠の対応が崩れにくい
- ビジネス文書としての“型”を外しにくい
この結果、人間側の仕事が「ゼロから作る」→「レビューして判断する」にシフトします。
性能向上より「人の関わり方が変わった」
ベンチマーク上ではいろいろな数字が伸びていますが、ビジネスで使って感じる本質的な変化はシンプルです。
- 説明コストが下がった
- 手直しコストが下がった
- 判断・意思決定に使える時間が増えた
つまり、AIに“作業を振る”というより、“下書きを任せて判断に集中する”使い方が現実的になった、という変化です。ARC-AGI や GDPval の数字が示しているものを、日常業務レベルに翻訳した姿だと思います。



