LMArenaのランキングの見方

LMArena（エルエムアリーナ）っていうサイトは、
いろんなAIを「実際に使って比べて、どっちが良かったか」をみんなで投票する場所です。サイトの上の方に並んでる項目は、「どんな場面でAIを比べるか」のカテゴリー。

各項目の意味

Overview：全競技のダイジェスト（ざっくり総合案内）
Text：文章のうまさ（説明・要約・相談・文章作り）
Code：プログラムのうまさ（Web制作・バグ直し・実装）
Vision：画像を見て理解する力（スクショ解析・図の読み取り）
Text-to-Image：文章から画像を作る力（「こういう絵を描いて」）
Image Edit：画像を直す力（消す・足す・色を変える・修正）
Search：調べ物の力（ネット検索して根拠つきで答える）
Text-to-Video：文章から動画を作る力
Image-to-Video：画像から動画にする力（写真を動かす）

ランキングの見方

上にいるほど強い（その競技で“勝ちやすい”）
ただし上位は差が小さいので、順位が近い＝ほぼ同じ強さのことも多い
新しいモデルは反映が遅れがち（試合数＝投票が足りないと順位が固まらない）

目的を決める（例：画像編集なら Image Edit）
そのタブの上位を“候補”にする
新しそうなモデルが見当たらない時は「まだ票が少ない」と考える

LMArenaのランキング（Leaderboard）は、だいぶ遅い。
「モデルを追加した瞬間に反映」ではなく、対戦投票データが十分に溜まってから統計的にレーティングを更新して載せる仕組みなので、タイムラグが出ます。
ベンチで比較したい → 同じベンチ、同じ枠（同じエージェント/ハーネス）の行で比べる。Terminal-Bench 2.0の“Terminus 2”の行は、その意味で比較しやすいです。

Post Views: 58

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30