ChatGPT5.2:ARC-AGI や GDPval の数字アップ覚書

ブログ

ARC-AGI や GDPval の数字が上がっています。「説明し直す回数」と「手直しする回数」がはっきり減った、という一点に集約されます。
これは技術指標で言うと ARC-AGI と GDPval の伸びに対応していますが、体感としてはもっと身近です。

初見対応力:背景説明を省いても話が通りやすくなった

最初の一投で“文脈を読む力”が明らかに上がっています。

たとえば、

  • 部署特有の言い回しが混じった議事録を渡して要点整理させる
  • 例外だらけの業務フローを簡単に説明して改善案を出させる
  • 過去経緯をざっくり書いただけの案件で、次の打ち手を考えさせる

こうしたタスクで、「前提の読み違い」が減りました。
完璧ではありませんが、仮説の立て方が現実寄りになり、修正も速いようです。
人間が「それ違う」と言う前に、自分で軌道修正している感覚があります。

成果物耐性:ドラフトが“たたき”ではなく“半完成品”で出てくる
  • 議事録 → 意思決定メモ
  • 要件整理 → PRD のたたき
  • 調査メモ → 比較表+結論案

といった作業で、「直せば出せる」ではなく「少し直せばそのまま使える」状態で返ってくることが増えたように思います。

特に効いているのは、

  • 観点漏れが減った
  • 結論と根拠の対応が崩れにくい
  • ビジネス文書としての“型”を外しにくい

この結果、人間側の仕事が「ゼロから作る」→「レビューして判断する」にシフトします。

性能向上より「人の関わり方が変わった」

ベンチマーク上ではいろいろな数字が伸びていますが、ビジネスで使って感じる本質的な変化はシンプルです。

  • 説明コストが下がった
  • 手直しコストが下がった
  • 判断・意思決定に使える時間が増えた

つまり、AIに“作業を振る”というより、“下書きを任せて判断に集中する”使い方が現実的になった、という変化です。ARC-AGI や GDPval の数字が示しているものを、日常業務レベルに翻訳した姿だと思います。

岡山のホームページ作成