Computer Use(コンピューターユース)とは?Claudeが画面を操作する仕組み・使い方・実例を徹底解説

Computer Use アイキャッチ

Computer Useとは

Computer Use(コンピューターユース)とは、AnthropicのClaudeが画面キャプチャ(スクリーンショット)を視覚的に認識し、人間のようにマウスクリック・キーボード入力・アプリ操作を行って汎用的なPCタスクをこなせるようにする機能である。2024年10月にベータ版が公開され、2025年から2026年にかけて安定版として本番運用が始まった、エージェントAI時代を象徴する中核機能のひとつだ。最新のClaude Sonnet 4.6ではOSWorldベンチマークで72.5%を記録し、業界最高水準のGUI操作精度を達成している。

一言でいうとComputer Useは「AIにPCを渡して、あとはよろしく」を実現する機能である。これまでのLLMはテキストで応答するだけだったが、Computer Useが備わったClaudeは、ユーザーの指示に従って実際にアプリを開き、フォームを埋め、ファイルをダウンロードし、結果を確認して次の行動を決めることができる。実務では、スクレイピングでは取れないログイン後の画面の操作、レガシーGUIアプリの自動化、複数アプリにまたがるワークフローの実行といった、RPAが苦手としていた領域に威力を発揮するポイントです。単なるチャットボットではなく「画面を見て手を動かせるデジタル従業員」をAPI経由で呼び出せるようになった、と覚えておきたい機能である。

Computer Useの読み方

コンピューター ユース

コンピュータ ユース

Computer Useの仕組み

Computer Useは、Claudeのビジョンモデルとツール呼び出し(Tool Use)機構を組み合わせたループ処理として動作する。ユーザーのリクエストを受け取ったClaudeは、まず現在の画面のスクリーンショットを取得し、それを視覚的に解析して「次に何をすべきか」を決定する。次に専用のツール(Computer Tool、Text Editor Tool、Bash Tool)を呼び出して実際の操作を行い、操作後の新しいスクリーンショットをもう一度受け取って次のステップを判断する——というサイクルを、タスクが完了するまで繰り返す設計だ。

技術的なポイントは、Claudeが「画像として画面を見て、座標として操作を指定する」という点にある。HTMLやアクセシビリティツリーに依存しないため、ネイティブのデスクトップアプリやCanvas描画、古いFlash的なレガシーUIでも動作する。これはWebスクレイピング系のエージェントと決定的に違う特徴で、実務ではGUIしか提供しない業務システムや、DOM解析を嫌うSaaSにも対応できるという強力な利点につながるポイントです。

知覚→行動ループ

Computer Useの基本ループ

1. 画面取得
スクリーンショットを撮影
2. 思考
Claudeが次の行動を決定
3. 実行
クリック・入力・起動
4. 再観測
新しい画面を取り直す

このループはClaude側ではなく、呼び出し元のアプリケーション側で回す。つまり、開発者は「スクリーンショットを撮る関数」「マウス・キーボード操作を実行する関数」を自分の環境で実装し、ClaudeのTool Useレスポンスに応じて実行する責任を負う。Anthropicは公式にDocker コンテナ上のUbuntu環境でこのループを実装したリファレンス実装を提供しており、実務では最初にこのリファレンス実装をベースにカスタマイズするのが鉄則です。

3つのコアツール

Computer Useでは、用途ごとに3つのツールが用意されている。

  • Computer Tool:マウスクリック、ドラッグ、キー入力、スクリーンショット取得を行う中核ツール。座標指定の操作はすべてこのツールに属する。
  • Text Editor Tool:ファイルの閲覧・作成・編集をスクリーン操作を介さず直接行うツール。コード編集のような細かい作業に向く。
  • Bash Tool:シェルコマンドを実行するツール。ファイル操作、プロセス管理、環境構築など「キーボードやマウスでは遠回り」な作業を高速に済ませる。

これらを使い分けることが、Computer Useを実務で効率的に動かすコツです。たとえば「ファイルを5箇所編集する」タスクなら、Text Editor Toolで直接編集するほうがマウスでカーソルを置きにいくより圧倒的に早い。Claudeは自分でタスクの性質を判断して最適なツールを呼び分けるよう訓練されている。

Computer Useの主要スペック

項目 内容
提供元 Anthropic
ツール type文字列 computer_20251124
ベータヘッダ computer-use-2025-11-24
対応モデル Claude Sonnet 4.6 / Claude 3.7 Sonnet / Claude 3.5 Sonnet v2
OSWorldスコア 72.5%(Sonnet 4.6)
初回リリース 2024年10月(ベータ)
本番化 2025〜2026年にかけて段階的にGA
利用可能プラットフォーム Anthropic API / Amazon Bedrock / Google Cloud Vertex AI
主な操作対象 デスクトップ全般、ブラウザ、ターミナル、レガシーGUIアプリ
推奨実行環境 サンドボックス化した仮想マシン/コンテナ

Computer Useの使い方・実例

Computer Useを利用するには、Anthropic APIに対してツール定義付きでリクエストを送る。以下は最小限のPythonコード例だ。Anthropicの公式クライアントを使い、tools配列にcomputer_20251124タイプのエントリを登録する。betasパラメータにベータヘッダを指定することを忘れないでほしい。

Python最小実装例

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    tools=[
        {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
        },
    ],
    messages=[{"role": "user", "content": "Save an image to Downloads"}],
    betas=["computer-use-2025-11-24"],
)
print(response.content)

このレスポンスには「click座標(x, y)」「キー入力’Enter’」のようなツール呼び出し指示が含まれる。開発者側はその指示通りに自分の仮想マシン上で操作を実行し、実行後のスクリーンショットをmessagesに追加して再度APIを呼ぶ——これを繰り返すのがComputer Useの基本パターンです。

3ツールをフル活用する構成例

tools = [
    {
        "type": "computer_20251124",
        "name": "computer",
        "display_width_px": 1280,
        "display_height_px": 800,
    },
    {
        "type": "text_editor_20250429",
        "name": "str_replace_based_edit_tool",
    },
    {
        "type": "bash_20250124",
        "name": "bash",
    },
]

response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=4096,
    tools=tools,
    messages=[{
        "role": "user",
        "content": "README.mdの誤字を修正し、git commitしてpushしてください"
    }],
    betas=["computer-use-2025-11-24"],
)

この構成ならClaudeは、まずBash ToolでGitの状態を確認し、Text Editor Toolで誤字を直接修正し、必要ならComputer Toolでブラウザを開いてGitHubのUI上で確認する——といった立体的な作業を自律的にこなせる。実務では3ツールを同時に登録しておくのがベストプラクティスです。

スクリーンショットループの擬似コード

messages = [{"role": "user", "content": "Downloadsを開いて最新のPDFを表示して"}]

while True:
    resp = client.beta.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=1024,
        tools=tools,
        messages=messages,
        betas=["computer-use-2025-11-24"],
    )
    if resp.stop_reason == "end_turn":
        break

    tool_use = [b for b in resp.content if b.type == "tool_use"][0]
    result = run_action_on_vm(tool_use.input)  # ここで実際に操作を実行
    screenshot = take_screenshot()

    messages.append({"role": "assistant", "content": resp.content})
    messages.append({
        "role": "user",
        "content": [{
            "type": "tool_result",
            "tool_use_id": tool_use.id,
            "content": [{"type": "image", "source": screenshot}],
        }],
    })

ここでrun_action_on_vmはマウス・キーボード操作をPyAutoGUIやxdotoolなどで実装する関数、take_screenshotは新しい画面キャプチャを返す関数だ。実務では仮想マシンの状態管理、タイムアウト、エラー時のリトライなどを丁寧に実装することが安定稼働の鍵になります。

Computer Useのメリット・デメリット

メリット

  • GUIだけのシステムでも自動化できる:API非公開のSaaSやレガシーデスクトップアプリにも対応可能。
  • DOM構造に依存しない:CanvasやFlash的UIでも動く。一般的なWebスクレイピングより耐性が高い。
  • 自然言語で指示できる:「経費精算の入力画面でこのCSVの内容を登録して」という指示がそのまま動く。
  • 複数アプリをまたいだ作業が得意:ブラウザで情報を探して、社内アプリに転記する、といった複合タスクに強い。
  • UI変更への耐性:座標ベースではなく意味ベースで操作するため、ボタン位置が多少ずれても壊れにくい。
  • 3ツールの組み合わせで効率化:Bash・Text Editorを駆使して、GUIが遅い部分はショートカット的に処理できる。

デメリット

  • スクリーンショットを何度もモデルに送るため、トークン消費が多くコストが高めになる。
  • 実行にはClaudeを動かせる仮想マシンや隔離環境が必要で、インフラ構築の手間がかかる。
  • 高速なRPAと比べるとステップごとにレイテンシがあり、分単位の作業が多い。
  • セキュリティ的にリスクが高い(パスワード入力、ファイルダウンロード、管理画面操作)ため、サンドボックス化が必須。
  • 現時点ではまだベータ機能で、本番運用には慎重な評価が必要。

Computer UseとRPAの違い

既存のRPA(Robotic Process Automation)ツールとComputer Useは一見似ているが、設計思想はまったく異なる。RPAは「決まった手順を忠実に再生する」ための自動化であり、UIが変わると壊れやすい。一方Computer Useは「自然言語の目的を達成する」ためのAIエージェントで、UIの変化に適応しながらタスクを遂行する。実務では両者を置き換えるというより、役割分担して使うのが賢い選択です。

項目 Computer Use 従来型RPA
操作の指示方法 自然言語 録画・GUIビルダー
画面認識 画像+意味理解 座標・DOM・要素ID
UI変更への強さ 高い(意味で解釈) 低い(位置でズレる)
想定外の対応 自律的にリカバリ エラー停止
学習曲線 プロンプトで指示 ツール習得が必要
実行速度 遅め(思考時間あり) 高速
コスト構造 トークン従量 ライセンス固定
得意なタスク 判断を伴う複合作業 定型で高頻度の反復

ポイントです。単純な繰り返しは従来型RPAが安定かつ安価だが、「UIが頻繁に変わる」「判断が必要」「複数アプリをまたぐ」といった領域ではComputer Useが圧倒的に有利だ。実務では既存RPAのフローの中に、判断を要するステップだけComputer Useを組み込むハイブリッド運用も増えてきている。

よくある誤解

誤解1:Computer UseはRPAの完全な代替

Computer Useはまだ本番稼働で100%の信頼性を持つわけではなく、コストもRPAより高い。単純反復作業ならRPAのほうが安定かつ安価です。両者を排他ではなく補完的に使うのが現実的で、「RPAで走らせつつ、例外だけComputer Useに渡す」という設計が覚えておきたい定石になってきている。

誤解2:どんな画面でも100%正確に操作できる

OSWorldで72.5%というスコアは業界最高水準だが、裏を返せば約1/4のタスクでは失敗もしくはエラーリカバリが必要という意味だ。本番運用ではリトライ、タイムアウト、ヒューマン・イン・ザ・ループの設計が必須です。重要な業務ではAIの出力結果を必ず人間が承認するステップを組み込むべきだと覚えておきたい。

誤解3:セキュリティ的に危険だから使えない

適切にサンドボックス化・権限制限を行えば、むしろ人間のオペレーターより安全な場合もある。操作ログが全件残るため、監査性は従来の手作業より高いポイントです。重要なのは「本番DBに直接触らせない」「金融取引系は必ず承認フローを挟む」といった運用設計です。

誤解4:Computer Useを使えばプロンプトだけで何でも動く

実際には、仮想マシンの準備、スクリーンショット取得ループの実装、エラーハンドリング、セッション状態管理など、エンジニアリング量はそれなりに多い。Anthropicが提供するリファレンス実装(Dockerベース)は最低限のスタートラインであり、本番運用にはさらに作り込みが必要だと覚えておきたいです。

実務での活用シーン

1. レガシー業務システムの自動化

Windows向けのクライアント/サーバ型業務アプリや、Java Appletで動く古いWebシステムなど、API化されていないシステムの自動操作にComputer Useが使われている。これまで派遣オペレーターが毎日入力していた作業を夜間バッチで処理できるようになり、実務では大きなコスト削減効果が出ています。特に製造業や金融機関の基幹系システムは10〜20年前のGUIのままのことが多く、Computer Useの活用余地は大きい。

2. 経費精算・請求書処理の自動化

領収書PDFや請求書画像を経費精算SaaSに登録する作業は、画像認識+画面操作の組み合わせで、AIエージェントが最も得意とする領域の一つ。Computer Useなら「ダッシュボードで月末締めのボタンを押す」まで自動化できる。人間の経理担当者は内容の妥当性チェックに専念できるポイントです。

3. QAテストの自動化

従来のE2Eテストは、UIが少し変わるとセレクタがずれて全部壊れるという課題があった。Computer Useを使えば「ログインしてダッシュボードで売上サマリが表示されることを確認する」といった自然言語仕様のまま、UI変更に強いテストが書ける。実務ではテスト保守コストの削減として注目されています。

4. カスタマーサポートの画面同時操作

オペレーターがチャットを受けている裏で、ユーザー情報を社内CRMから検索・表示するといった「ハンドオフ作業」をComputer Useが担当することで、サポート応答速度が大幅に向上する。サポート業務のコパイロットとしての活用が広がっています。

5. 採用・アウトソース業務の代替

海外の求人票翻訳、複数のジョブボードへの同時投稿、応募者へのスケジュール調整メール送信——これらはAPIがばらばらで従来は人間が一つ一つ操作していた領域。Computer Useで汎用的に自動化でき、採用担当者が戦略業務に集中できる環境が作れるようになりました。

6. ECサイトの横断的な価格調査

競合ECサイトにログインしてマイページでの会員向け価格をチェックするような、スクレイピングでは難しい作業をComputer Useで実行するケース。ログインセッション維持と画面操作を合わせて行える点が強みです。ただし利用規約違反にならないよう設計上の注意が必要。

よくある質問(FAQ)

Q1. Computer Useの料金はどう計算される?

A. 通常のClaude APIと同じく、入出力トークン従量課金です。スクリーンショットは画像トークンとしてカウントされ、解像度1024×768のスクリーンショット1枚でおよそ1000〜1500トークン消費します。実務では1タスクあたり20〜50スクリーンショット使うことが多く、タスクあたり$0.1〜$0.5程度が目安です。

Q2. どのClaudeモデルで使える?

A. 最新はClaude Sonnet 4.6で、精度は業界最高水準の72.5%(OSWorld)。古めだとClaude 3.7 Sonnet、Claude 3.5 Sonnet v2でも利用可能です。Opus系は推論コストが高いので、Sonnet系を使うのが実務のスタンダードになっています。

Q3. セキュリティ上の注意点は?

A. 本番環境や機密データに直接アクセスさせないこと、必ずサンドボックス環境で動かすこと、重要な操作(送金・削除・本番デプロイ)には人間の承認を挟むこと、この3点が必須です。Anthropicもプロンプトインジェクション対策として信頼できないWebページ閲覧を避ける、ファイル共有サービスへのログインを回避する等の具体的なガイドを出しています。

Q4. ローカルPCで試せる?

A. Anthropicが公式に配布しているDockerリファレンス実装を使えば、手元のマシンでUbuntu + Firefox + Xvfb環境を起動して試せます。Windowsホスト上でも動くので、PoCなら1時間以内でセットアップ可能です。ただし本番用途には隔離されたクラウド仮想マシンでの運用が推奨されます。

Q5. 今後のロードマップは?

A. Anthropicは継続的にモデルのGUI理解能力を向上させており、長時間タスクへの対応、複数画面・マルチディスプレイへの対応、モバイル画面のサポートなどが今後のテーマとされています。Claudeエージェントが数時間単位の業務を自律的に完遂できるようになるのは時間の問題だと覚えておきたい論点です。

まとめ

  • Computer UseはAnthropicのClaudeが画面を見てマウス・キーボードを操作する機能で、2024年10月にベータ公開、2026年にかけて本番化が進んでいる。
  • ツール文字列は computer_20251124、ベータヘッダは computer-use-2025-11-24
  • 対応モデルはClaude Sonnet 4.6(OSWorld 72.5%)、Claude 3.7 Sonnet、Claude 3.5 Sonnet v2など。
  • Computer Tool、Text Editor Tool、Bash Toolの3つを組み合わせて使うのが定石。
  • RPAとは排他ではなく補完の関係で、判断を伴う作業や複合タスクに特に強い。
  • サンドボックス化、ヒューマン・イン・ザ・ループ、監査ログが本番運用の3点セット。
  • レガシー業務自動化、経費精算、QAテスト、サポート支援など、実務での活用幅が急速に広がっている。

参考文献・出典

参考文献・出典

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA