LMArenaのランキングの見方

ブログ

LMArena(エルエムアリーナ)っていうサイトは、
いろんなAIを「実際に使って比べて、どっちが良かったか」をみんなで投票する場所です。サイトの上の方に並んでる項目は、「どんな場面でAIを比べるか」のカテゴリー。

各項目の意味
  • Overview:全競技のダイジェスト(ざっくり総合案内)
  • Text:文章のうまさ(説明・要約・相談・文章作り)
  • Code:プログラムのうまさ(Web制作・バグ直し・実装)
  • Vision:画像を見て理解する力(スクショ解析・図の読み取り)
  • Text-to-Image:文章から画像を作る力(「こういう絵を描いて」)
  • Image Edit:画像を直す力(消す・足す・色を変える・修正)
  • Search:調べ物の力(ネット検索して根拠つきで答える)
  • Text-to-Video:文章から動画を作る力
  • Image-to-Video:画像から動画にする力(写真を動かす)
ランキングの見方
  • 上にいるほど強い(その競技で“勝ちやすい”)
  • ただし上位は差が小さいので、順位が近い=ほぼ同じ強さのことも多い
  • 新しいモデルは反映が遅れがち(試合数=投票が足りないと順位が固まらない)
  1. 目的を決める(例:画像編集なら Image Edit
  2. そのタブの上位を“候補”にする
  3. 新しそうなモデルが見当たらない時は「まだ票が少ない」と考える

LMArenaのランキング(Leaderboard)は、だいぶ遅い。
「モデルを追加した瞬間に反映」ではなく、対戦投票データが十分に溜まってから統計的にレーティングを更新して載せる仕組みなので、タイムラグが出ます。
ベンチで比較したい同じベンチ、同じ枠(同じエージェント/ハーネス)の行で比べる。Terminal-Bench 2.0の“Terminus 2”の行は、その意味で比較しやすいです。

岡山のホームページ作成