Browser Use（ブラウザユース）とは？読み方・LLMでブラウザを自動操作するOSSライブラリの仕組み・使い方・Playwrightとの違いを完全解説

Q: CAPTCHAは突破できますか？

原則としてCAPTCHAは突破しない設計です。サイトのアンチBotポリシーを尊重し、必要に応じて合法な代行サービスを組み合わせる必要があります。

Browser Useとは

Browser Use（ブラウザユース）とは、LLM（大規模言語モデル）に実ブラウザを操作させるためのオープンソースPythonライブラリで、2024年末に公開されてから急成長し、2026年5月時点でGitHubのスター数は約79,000に達している。Playwrightをラップして、ChromiumベースのブラウザをLLMが自然言語の指示だけで操作できるようにすることが目的のフレームワークだ。

イメージとしては「Webブラウザに操作マニュアルを渡す代わりに、新人にお願いするのと同じ感覚で指示できるツール」と捉えると分かりやすい。たとえば「Amazonでワイヤレスイヤホンを検索して、レビュー4.5以上で5,000円以下の商品をCSVで出力して」と一文渡すだけで、Browser UseはLLMにDOM情報・スクリーンショットを渡し、要素のクリックやフォーム入力を自動で実行する。ここが重要なポイントです — CSSセレクタやXPathを書かずに済む点が従来のRPAやスクレイピングツールとの決定的な違いだ。

Browser Useの読み方

ブラウザユース

browser-use（PyPIパッケージ名と同じ表記）

Browser Useの仕組み

Browser Useの実行フローは「LLMに対してブラウザの状態を要約して見せる→次の操作をLLMに決めさせる→Playwrightで実行」のループになる。ハイレベルに分解すると次の通り。

Browser Useの実行ループ

①ユーザーから自然言語タスクを受け取る

→

②現ページのDOM/スクリーンショットを抽出

→

③LLMに送って次のアクションを決定

→

④Playwrightで操作→ループ

DOM抽出と「アクセシブルなビュー」

Browser Useは現在のページから「LLMが理解しやすい形に整形したDOM要素一覧」を生成する。これは生のHTMLそのままではなく、操作可能な要素にIDを振り直し、テキスト・ロール・属性を付加した抽象表現だ。トークンを節約しつつ、LLMが要素を一意に指せるよう配慮されている。

アクションスペース

LLMが選べるアクションは「クリック」「入力」「スクロール」「ドロップダウン選択」「タブ切替」「ファイルダウンロード」など、Web操作に必要な最低限のセットに絞られている。LLM側はそのDSLでアクションを返し、Browser UseがPlaywright経由で実行する。覚えておきたいのは、アクションスペースを絞ることでLLMの誤操作を減らしている点だ。

Browser Useの使い方・実例

基本的な使い方（Quick Start）

import asyncio
from browser_use import Agent
from langchain_anthropic import ChatAnthropic

async def main():
    agent = Agent(
        task="GitHubでvLLMリポジトリを開いて、最新リリースのバージョンを取得して",
        llm=ChatAnthropic(model="claude-opus-4-6"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

たった数行で、ChromiumブラウザをClaudeに操作させられる。LLMはOpenAI・Anthropic・Google Gemini等のメジャーモデルが選べ、設定はLangChainのChatModelインターフェース経由で渡せる。

よくある実装パターン

パターンA: 競合価格調査エージェント

agent = Agent(
    task=(
        "Amazon、楽天、Yodobashi.comでiPhone 16 Pro 256GBの最安値を調べて、"
        "店舗名・価格・URLをJSONで返して"
    ),
    llm=ChatAnthropic(model="claude-opus-4-6"),
)
result = await agent.run()

向いているケース: 競合価格調査・在庫モニタリング・レビュー収集。サイト構造が変わってもLLMが視覚的に判断できるため、堅牢に動く。

避けるべきケース: 高頻度のスクレイピング（規約違反やレート制限の問題）。

パターンB: フォーム自動入力アシスタント

agent = Agent(
    task=(
        "経費精算サイトを開いて、CSVから読んだ5件の経費データを順に入力・保存して、"
        "保存後のIDを取得して"
    ),
    llm=ChatAnthropic(model="claude-opus-4-6"),
    initial_actions=[{"open_url": "https://example.com/expenses"}],
)
result = await agent.run()

向いているケース: 社内SaaSへのバッチ入力、経費精算、人事申請の代行。

避けるべきケース: パスワードや多要素認証を要する高セキュリティ画面（操作ログから機密が漏れるリスク）。

アンチパターン: ログイン情報をプロンプトに直接記述

# ⛔ 絶対NG
agent = Agent(
    task="Amazon にログインしてください。メール: user@example.com、パスワード: P@ssw0rd",
    llm=ChatAnthropic(model="claude-opus-4-6"),
)

Browser UseはLLMにプロンプト全文を送るため、認証情報をタスク文に含めるのは情報漏洩リスクが大きい。実装する場合はsecretsパラメータや環境変数を使い、Playwrightのコンテキストに直接注入する設計を選ぶこと。

Browser Useのメリット・デメリット

メリット

CSSセレクタやXPathを書かずに自然言語で動かせる
Playwrightベースなのでページ変更に強い（視覚的に判断できる）
OSSで商用利用可（MITライセンス）
LLMプロバイダを選べる（OpenAI・Anthropic・Google・Ollamaなど）
マルチタブ操作・ファイルダウンロード・JS実行など機能が豊富

デメリット

1ステップごとにLLM呼び出しが発生し、API料金とレイテンシが嵩む
LLMの判断ミスで誤操作が起きるリスクがあり、安全装置の設計が必須
厳格なrobots.txt・利用規約のあるサイトには使えない場合がある
長時間運用時のセッション管理・Cookie管理を別途実装する必要がある

Browser UseとPlaywright・Computer Useの違い

「ブラウザを自動化したい」場面でBrowser UseはPlaywright・Selenium、AnthropicのComputer Useと比較されることが多い。下記の比較表で違いを整理する。

観点	Browser Use	Playwright	Computer Use（Claude）
操作の指定	自然言語タスク	セレクタ・スクリプト	自然言語＋画面座標
操作対象	ブラウザ専用	ブラウザ専用	デスクトップ全体
LLM依存	あり（プロバイダ選択可）	なし	あり（Claude固定）
堅牢性（UI変更耐性）	高い	低い（セレクタが固定）	高い
運用コスト	LLM API課金	CPU/メモリのみ	Claude API課金（やや高め）
主な用途	調査・スクレイピング・代行	E2Eテスト	汎用デスクトップ自動化

つまり「ブラウザだけを賢く動かしたい」ならBrowser Use、「テストの再現性が最優先」ならPlaywright、「ブラウザに留まらない作業」ならComputer Useが向いている。

よくある誤解

誤解1: 「Browser Useは無料で動かせる」

なぜそう誤解されるのか: ライブラリ自体がOSSで無料配布されているため、運用コストもゼロという連想が働く。GitHub README冒頭の「Make websites accessible for AI agents」というコピーも気軽な印象を与えている。

正しい理解: Browser Use自体は無料だが、内部で使うLLM（OpenAI・Anthropic等）の利用料がステップごとに発生する。1タスクあたり数十〜数百回のLLM呼び出しが起きるため、本格運用時はコスト試算が不可欠。OllamaなどローカルLLMを使えば実質無料化も可能だが精度は落ちる。