UI-TARSの使い方:覚書

ブログ

ByteDanceが開発したUI-TARS(特にUI-TARS-1.5シリーズ)は、2025〜2026年にかけて話題になった超強力なオープンソースのGUIエージェントです。
簡単に言うと、「自然言語でPCを操作してくれるAI」で、画面を見て考えてマウス・キーボードを動かしてくれます。ブラウザ操作、VS Codeでのコーディング補助、ファイル整理、簡単なゲーム自動プレイまで幅広く対応。しかも**ローカル完結(オフライン)**で動くので、画面データが外部に漏れにくいのが最大の魅力。

主な特徴(2026年2月現在)

  • ベンチマークでトップクラス
    OSWorld、AndroidWorld、ScreenSpotなどのGUI系ベンチマークで、GPT-4oやClaude 3.7/4を上回るスコアを記録(特に7Bモデルでこの性能は異常)。
  • モデルサイズの選択肢
    • 軽量:2B〜7B(RTX 3060〜4090で快適に動く)
    • 重め:72B(ハイエンドGPU複数枚推奨)
  • 完全オープンソース(Apache 2.0)
    モデル weights、コード、データセットの多くが公開済み。
  • 主な用途例
    「Chrome開いてTwitterで最新のAIニュース検索してまとめて」
    「このフォルダの画像を日付順にリネームして」
    「VS Codeでこのリポジトリ開いてバグ修正提案して」など

中国オープンソース勢(DeepSeek、MiniMax、ByteDance)の「最強モデルを無料公開してエコシステム制覇」戦略の象徴的存在で、有料APIモデルへのカウンターとしてかなり効いています。簡単な導入方法(2026年2月時点の最も手軽なルート)一番のおすすめはUI-TARS Desktopアプリを使う方法です。ほぼインストールするだけで動きます。

  1. 公式GitHub Releasesからダウンロード
    https://github.com/bytedance/UI-TARS-desktop/releases/latest
    → Windows / macOS / Linux 向けの最新インストーラーを落とす(.exe / .dmg / .AppImage など)
  2. インストール
    • Windows:exeを実行して次へ次へ
    • macOS:dmgを開いてApplicationsにドラッグ
      (初回起動時に「壊れている」と言われたらターミナルで以下を実行) bashxattr -cr /Applications/UI\ TARS.app
    • Linux:AppImageに実行権限つけてダブルクリック
  3. モデルを準備(一番簡単なのはLM StudioやOllama連携)
    • おすすめ:LM Studio(Windows/macOS対応、初心者向け)
      1. LM Studioをインストール(https://lmstudio.ai/)
      2. 検索で「UI-TARS-1.5-7B」または「ByteDance-Seed/UI-TARS-1.5-7B」を探してダウンロード
        (GGUF版が動かしやすい:mradermacherや他のquantized版でもOK)
      3. UI-TARS Desktopを起動 → 設定 → Local Model → LM StudioのサーバーURL(通常 http://localhost:1234/v1)を入力
    • または vLLM で本格ローカルサーバー(GPUある人向け) bashpip install vllm python -m vllm.entrypoints.openai.api_server --model ByteDance-Seed/UI-TARS-1.5-7B→ UI-TARS Desktopで http://localhost:8000/v1 を指定
  4. 初回起動&テスト
    アプリ起動 → 新規タスク作成 → 「自然言語で指示」を入力
    例:「デスクトップのスクショ撮って、今日の日付のフォルダ作ってそこに保存して」
  5. 権限許可
    初回は画面収録・アクセシビリティ・入力監視の許可を求められるので全部ONに(これがないと動かない)。

これで大体30分〜1時間以内に「画面を見ながら動くAIエージェント」がローカルで無料で使えます。
時間のある時に試します。

岡山のホームページ作成