このグラフは「Performance vs Total cost(性能と総コスト)」を示していて、縦軸が成功率(%)、横軸が総コスト($)です。

- 左上ほど理想的(高精度・低コスト)
- 右下ほど非効率(低精度・高コスト)
- 最も優秀な位置(左上)
- gpt 5 for real(ほぼ100%成功率で低コスト)
- o3 pro(高成功率・低コスト)
- o3(同じく高精度・低コスト)
- 高コスト高精度
- grok 4(精度は高いがコストがかなり高い)
- コスパ中間層
- gemini 2.5 pro(精度は中程度、コストは2ドル程度)
- gpt 5 mini / claude 4 opus / o4 mini(成功率50%前後で低コスト)
- 低精度ゾーン
- kimi k2 / gpt 4.1 / claude 4 sonnet(成功率ほぼ0〜10%台)
- gpt 5 nano / glm 4.5(成功率20%台)
この図から見ると、「gpt 5 for real」や「o3 pro」は圧倒的なコスパで、逆にgrok 4は性能は良いがコストがネックという傾向がはっきり出ています。



