LMArena(エルエムアリーナ)っていうサイトは、
いろんなAIを「実際に使って比べて、どっちが良かったか」をみんなで投票する場所です。サイトの上の方に並んでる項目は、「どんな場面でAIを比べるか」のカテゴリー。

各項目の意味
- Overview:全競技のダイジェスト(ざっくり総合案内)
- Text:文章のうまさ(説明・要約・相談・文章作り)
- Code:プログラムのうまさ(Web制作・バグ直し・実装)
- Vision:画像を見て理解する力(スクショ解析・図の読み取り)
- Text-to-Image:文章から画像を作る力(「こういう絵を描いて」)
- Image Edit:画像を直す力(消す・足す・色を変える・修正)
- Search:調べ物の力(ネット検索して根拠つきで答える)
- Text-to-Video:文章から動画を作る力
- Image-to-Video:画像から動画にする力(写真を動かす)
ランキングの見方
- 上にいるほど強い(その競技で“勝ちやすい”)
- ただし上位は差が小さいので、順位が近い=ほぼ同じ強さのことも多い
- 新しいモデルは反映が遅れがち(試合数=投票が足りないと順位が固まらない)
- 目的を決める(例:画像編集なら Image Edit)
- そのタブの上位を“候補”にする
- 新しそうなモデルが見当たらない時は「まだ票が少ない」と考える
LMArenaのランキング(Leaderboard)は、だいぶ遅い。
「モデルを追加した瞬間に反映」ではなく、対戦投票データが十分に溜まってから統計的にレーティングを更新して載せる仕組みなので、タイムラグが出ます。
ベンチで比較したい → 同じベンチ、同じ枠(同じエージェント/ハーネス)の行で比べる。Terminal-Bench 2.0の“Terminus 2”の行は、その意味で比較しやすいです。



