URLからタスクを作成する

octoparse detect はOctoparse拡張ブラウザを開き、ページを検査してローカルタスクファイルを生成します。Octoparseデスクトップアプリを使わずにURLからタスクを作成したい場合に使用します。

v0.1.32では、CAPTCHA、アクセス制限、セキュリティ検証、サービスエラーのページをタスク生成前に除外するようになりました。弱い候補領域やページ全体のナビゲーションシェルも、より厳密に除外します。複雑なページやログインフローでは引き続き手動確認が必要な場合があります。

3つのモードがあります。

モード	適した場面
`--auto`	CLIに最適なデータ領域を自動選択させたい場合
`--manual`	ログイン、ペイウォール対応、または自分で領域を選択したい場合
AIエージェント（`--agent`）	LLMや自動化ツールがワークフローを制御する場合

AIエージェントでは --auto ではなく、--agent または prepare / preview / apply ワークフローを使用してください。自動モードはCLIを直接操作する場合の自動選択用です。

detect には有効なOctoparseアカウントと認証情報、およびローカルChromeが必要です。Linux arm64はサポートされていません。プラットフォーム要件についてはインストールを参照してください。

自動モード

CLIが最適な候補データ領域を選択してタスクファイルを生成します。

octoparse detect <url> --auto --output task.json

抽出したい内容を自然言語で指定できます。

octoparse detect <url> --auto --goal "商品タイトルと価格を抽出" --output task.json

検索結果ページなど、キーワード検索が必要な場合：

octoparse detect <url> --auto --query "キーワード" --goal "検索結果を抽出" --output task.json

構造化レスポンスを取得するには --json を使用します。

octoparse detect <url> --auto --goal "..." --output task.json --json

--output を省略した場合は detected_<host>.json が自動的に作成されます。

ブラウザモードを選択する

octoparse detect <url> --browser independent --auto
octoparse detect <url> --browser user --browser-id chrome --profile "Default" --manual

優先順位はコマンドフラグ、OCTOPARSE_BROWSER、保存済みの octoparse browser use 設定、independent の順です。userモードはWindowsとmacOSで利用できます。詳細は octoparse browser --help を参照してください。

手動モード

ブラウザオーバーレイが開き、ログインの完了、ポップアップの処理、データ領域の選択を自分で行えます。

octoparse detect <url> --manual
octoparse detect <url> --manual --goal "記事のタイトルとリンクを取得"

ログインが必要なサイトでは --save-session でCookieを保存し、以降のローカル実行でセッションを再利用できます。

octoparse detect <url> --manual --save-session --session-name my-session --output task.json

Cookieセッションはすべてのサイトをカバーするわけではありません。特にlocalStorage、デバイスバインディング、新規認証が必要なページでは機能しない場合があります。

生成されたタスクの検証と実行

タスクファイルを生成したら、実行前に検証します。

octoparse task validate <taskId> --task-file task.json

ローカルでサンプル実行：

octoparse run <taskId> --task-file task.json --max-rows 10 --headless

サンプル結果のエクスポート：

octoparse data export <taskId> --source local --format xlsx

AIエージェントワークフロー

LLM駆動または自動化ワークフローでは、--auto の代わりにエージェントコントラクトを使用します。まずcapabilitiesを確認します。

octoparse capabilities --json

レスポンスには machineContract.recipes.createTaskFromUrlWithAgent が含まれており、エージェント向けの推奨ワークフローが記載されています。

ワンショット（最速）

コンテキストファイルを読み込みプランを書くことができる信頼済みローカルランナーと組み合わせて --agent を使用します。

octoparse detect <url> \
  --agent \
  --agent-command "path/to/your/agent-runner" \
  --goal "検索結果を抽出" \
  --output task.json \
  --yes \
  --run-sample 5 \
  --json

レスポンスは生成されたタスク、プレビュー結果、サンプル実行出力を含む単一のJSONエンベロープです。

監査可能なステップ実行

監査や修正が必要な場合は、prepare / preview / apply シーケンスを使用し、タスクを一度に生成するのではなく段階的に進めます。

エージェントコンテキストを準備する

エージェントの計画用にWebページのコンテキストを書き出します。

octoparse detect <url> \
  --prepare-agent \
  --goal "商品タイトルと価格を抽出" \
  --output context.json \
  --json

context.json には候補データ領域、フィールドのサンプル、スクリーンショット、decisionSummary が含まれます。

プランを作成する

context.json をもとに plan.json を作成します。octopus.detect.agent-plan.v1 スキーマを使用します。フィールドを選択する前に context.visualArtifacts.annotatedScreenshotPath のアノテーション付きスクリーンショットを確認し、プランに visualReview の証拠を含めてください。

プランをプレビューする

最終的なタスクファイルを生成する前にプランを検証します。

octoparse detect \
  --preview-agent-plan plan.json \
  --agent-context context.json \
  --json

data.pass が false の場合は、適用前にプランを修正してください。

プランを適用する

最終的なローカルタスクファイルを生成します。

octoparse detect \
  --apply-agent-plan plan.json \
  --agent-context context.json \
  --output task.json

生成された task.json は、その後ローカルCLI実行で検査・検証したり、使用したりできます。

エージェントは常に octoparse capabilities --json を最初に呼び出し、現在のコマンド体系を確認した上で、コマンドフラグをハードコードするのではなく machineContract.recipes に従ってください。

detectのトラブルシューティング

問題	確認すること
Chromeが起動しない	`octoparse doctor` を実行し `chrome` エントリを確認します。`--chrome-path /path/to/chrome` を試してください
`LINUX_ARM64_UNSUPPORTED`	Linux x64環境に切り替えるか、クラウド抽出を使用します
`LOGIN_SESSION_REQUIRED`	`--manual` でログインし `--save-session` でセッションを保存します
プランのプレビューが `pass: false`	`plan.json` の `candidateId` またはフィールド選択を修正してプレビューを再実行します
タスクの結果が空または不正	エージェントコンテキストの `context.resultValidationPolicy` を確認します。広告や異種行の一部フィールド欠損は通常の動作の場合があります

次のステップ

最初のタスクを実行する

生成したタスクをローカルで実行し、ステータスを確認してデータをエクスポートします。

コマンドチートシート

detect、run、cloud、data、auth コマンドの完全リファレンスです。

概要

はじめに

タスクを作成

タスクと実行

データ

自動化

リファレンス

URLからタスクを作成する

自動モード

ブラウザモードを選択する

手動モード

生成されたタスクの検証と実行

AIエージェントワークフロー

ワンショット（最速）

監査可能なステップ実行

detectのトラブルシューティング

次のステップ

最初のタスクを実行する

コマンドチートシート

​自動モード

​ブラウザモードを選択する

​手動モード

​生成されたタスクの検証と実行

​AIエージェントワークフロー

​ワンショット（最速）

​監査可能なステップ実行

​detectのトラブルシューティング

​次のステップ

最初のタスクを実行する

コマンドチートシート

自動モード

ブラウザモードを選択する

手動モード

生成されたタスクの検証と実行

AIエージェントワークフロー

ワンショット（最速）

監査可能なステップ実行

detectのトラブルシューティング

次のステップ