メインコンテンツへスキップ
octoparse detect はOctoparse拡張ブラウザを開き、ページを検査してローカルタスクファイルを生成します。Octoparseデスクトップアプリを使わずにURLからタスクを作成したい場合に使用します。 3つのモードがあります。
モード適した場面
--autoCLIに最適なデータ領域を自動選択させたい場合
--manualログイン、ペイウォール対応、または自分で領域を選択したい場合
AIエージェント(--agentLLMや自動化ツールがワークフローを制御する場合
detect には有効なOctoparseアカウントと認証情報、およびローカルChromeが必要です。Linux arm64はサポートされていません。プラットフォーム要件についてはインストールを参照してください。

自動モード

CLIが最適な候補データ領域を選択してタスクファイルを生成します。
octoparse detect <url> --auto --output task.json
抽出したい内容を自然言語で指定できます。
octoparse detect <url> --auto --goal "商品タイトルと価格を抽出" --output task.json
検索結果ページなど、キーワード検索が必要な場合:
octoparse detect <url> --auto --query "キーワード" --goal "検索結果を抽出" --output task.json
構造化レスポンスを取得するには --json を使用します。
octoparse detect <url> --auto --goal "..." --output task.json --json
--output を省略した場合は detected_<host>.json が自動的に作成されます。

手動モード

ブラウザオーバーレイが開き、ログインの完了、ポップアップの処理、データ領域の選択を自分で行えます。
octoparse detect <url> --manual
octoparse detect <url> --manual --goal "記事のタイトルとリンクを取得"
ログインが必要なサイトでは --save-session でCookieを保存し、以降のローカル実行でセッションを再利用できます。
octoparse detect <url> --manual --save-session --session-name my-session --output task.json
Cookieセッションはすべてのサイトをカバーするわけではありません。特にlocalStorage、デバイスバインディング、新規認証が必要なページでは機能しない場合があります。

生成されたタスクの検証と実行

タスクファイルを生成したら、実行前に検証します。
octoparse task validate <taskId> --task-file task.json
ローカルでサンプル実行:
octoparse run <taskId> --task-file task.json --max-rows 10 --headless
サンプル結果のエクスポート:
octoparse data export <taskId> --source local --format xlsx

AIエージェントワークフロー

LLM駆動または自動化ワークフローでは、--auto の代わりにエージェントコントラクトを使用します。まずcapabilitiesを確認します。
octoparse capabilities --json
レスポンスには machineContract.recipes.createTaskFromUrlWithAgent が含まれており、エージェント向けの推奨ワークフローが記載されています。

ワンショット(最速)

コンテキストファイルを読み込みプランを書くことができる信頼済みローカルランナーと組み合わせて --agent を使用します。
octoparse detect <url> \
  --agent \
  --agent-command "path/to/your/agent-runner" \
  --goal "検索結果を抽出" \
  --output task.json \
  --yes \
  --run-sample 5 \
  --json
レスポンスは生成されたタスク、プレビュー結果、サンプル実行出力を含む単一のJSONエンベロープです。

監査可能なステップ実行

監査や修正が必要な場合は、prepare / preview / apply シーケンスを使用します。 ステップ1 — エージェントコンテキストを準備する:
octoparse detect <url> \
  --prepare-agent \
  --goal "商品タイトルと価格を抽出" \
  --output context.json \
  --json
context.json には候補データ領域、フィールド名、サンプル行、スクリーンショット、decisionSummary が含まれます。 ステップ2 — プランを作成するplan.json)。context.json をもとに octopus.detect.agent-plan.v1 スキーマに従ったプランを作成します。候補を選択する前に context.visualArtifacts.annotatedScreenshotPath のアノテーション付きスクリーンショットを確認し、visualReview の証拠を含めてください。 ステップ3 — プランをプレビューする:
octoparse detect \
  --preview-agent-plan plan.json \
  --agent-context context.json \
  --json
data.pass が false の場合は、適用前にプランを修正してください。 ステップ4 — プランを適用する:
octoparse detect \
  --apply-agent-plan plan.json \
  --agent-context context.json \
  --output task.json \
  --json
ステップ5 — 検証と実行:
octoparse task validate <taskId> --task-file task.json --json
octoparse run <taskId> --task-file task.json --max-rows 10 --headless --jsonl
エージェントは常に octoparse capabilities --json を最初に呼び出し、現在のコマンド体系を確認した上で、コマンドフラグをハードコードするのではなく machineContract.recipes に従ってください。

detectのトラブルシューティング

問題確認すること
Chromeが起動しないoctoparse doctor を実行し chrome エントリを確認します。--chrome-path /path/to/chrome を試してください
LINUX_ARM64_UNSUPPORTEDLinux x64環境に切り替えるか、クラウド抽出を使用します
LOGIN_SESSION_REQUIRED--manual でログインし --save-session でセッションを保存します
プランのプレビューが pass: falseplan.jsoncandidateId またはフィールド選択を修正してプレビューを再実行します
タスクの結果が空または不正エージェントコンテキストの context.resultValidationPolicy を確認します。広告や異種行の一部フィールド欠損は通常の動作の場合があります

次のステップ

最初のタスクを実行する

生成したタスクをローカルで実行し、ステータスを確認してデータをエクスポートします。

コマンドチートシート

detect、run、cloud、data、auth コマンドの完全リファレンスです。