ChatGPT5.2：ARC-AGI や GDPval の数字アップ覚書

ARC-AGI や GDPval の数字が上がっています。「説明し直す回数」と「手直しする回数」がはっきり減った、という一点に集約されます。
これは技術指標で言うと ARC-AGI と GDPval の伸びに対応していますが、体感としてはもっと身近です。

最初の一投で“文脈を読む力”が明らかに上がっています。

たとえば、

こうしたタスクで、「前提の読み違い」が減りました。
完璧ではありませんが、仮説の立て方が現実寄りになり、修正も速いようです。
人間が「それ違う」と言う前に、自分で軌道修正している感覚があります。

といった作業で、「直せば出せる」ではなく「少し直せばそのまま使える」状態で返ってくることが増えたように思います。

特に効いているのは、

この結果、人間側の仕事が「ゼロから作る」→「レビューして判断する」にシフトします。

ベンチマーク上ではいろいろな数字が伸びていますが、ビジネスで使って感じる本質的な変化はシンプルです。

つまり、AIに“作業を振る”というより、“下書きを任せて判断に集中する”使い方が現実的になった、という変化です。ARC-AGI や GDPval の数字が示しているものを、日常業務レベルに翻訳した姿だと思います。

Post Views: 26