octoparse detect はOctoparse拡張ブラウザを開き、ページを検査してローカルタスクファイルを生成します。Octoparseデスクトップアプリを使わずにURLからタスクを作成したい場合に使用します。
3つのモードがあります。
| モード | 適した場面 |
|---|---|
--auto | CLIに最適なデータ領域を自動選択させたい場合 |
--manual | ログイン、ペイウォール対応、または自分で領域を選択したい場合 |
AIエージェント(--agent) | LLMや自動化ツールがワークフローを制御する場合 |
detect には有効なOctoparseアカウントと認証情報、およびローカルChromeが必要です。Linux arm64はサポートされていません。プラットフォーム要件についてはインストールを参照してください。自動モード
CLIが最適な候補データ領域を選択してタスクファイルを生成します。--json を使用します。
--output を省略した場合は detected_<host>.json が自動的に作成されます。
手動モード
ブラウザオーバーレイが開き、ログインの完了、ポップアップの処理、データ領域の選択を自分で行えます。--save-session でCookieを保存し、以降のローカル実行でセッションを再利用できます。
Cookieセッションはすべてのサイトをカバーするわけではありません。特にlocalStorage、デバイスバインディング、新規認証が必要なページでは機能しない場合があります。
生成されたタスクの検証と実行
タスクファイルを生成したら、実行前に検証します。AIエージェントワークフロー
LLM駆動または自動化ワークフローでは、--auto の代わりにエージェントコントラクトを使用します。まずcapabilitiesを確認します。
machineContract.recipes.createTaskFromUrlWithAgent が含まれており、エージェント向けの推奨ワークフローが記載されています。
ワンショット(最速)
コンテキストファイルを読み込みプランを書くことができる信頼済みローカルランナーと組み合わせて--agent を使用します。
監査可能なステップ実行
監査や修正が必要な場合は、prepare / preview / apply シーケンスを使用します。 ステップ1 — エージェントコンテキストを準備する:context.json には候補データ領域、フィールド名、サンプル行、スクリーンショット、decisionSummary が含まれます。
ステップ2 — プランを作成する(plan.json)。context.json をもとに octopus.detect.agent-plan.v1 スキーマに従ったプランを作成します。候補を選択する前に context.visualArtifacts.annotatedScreenshotPath のアノテーション付きスクリーンショットを確認し、visualReview の証拠を含めてください。
ステップ3 — プランをプレビューする:
data.pass が false の場合は、適用前にプランを修正してください。
ステップ4 — プランを適用する:
detectのトラブルシューティング
| 問題 | 確認すること |
|---|---|
| Chromeが起動しない | octoparse doctor を実行し chrome エントリを確認します。--chrome-path /path/to/chrome を試してください |
LINUX_ARM64_UNSUPPORTED | Linux x64環境に切り替えるか、クラウド抽出を使用します |
LOGIN_SESSION_REQUIRED | --manual でログインし --save-session でセッションを保存します |
プランのプレビューが pass: false | plan.json の candidateId またはフィールド選択を修正してプレビューを再実行します |
| タスクの結果が空または不正 | エージェントコンテキストの context.resultValidationPolicy を確認します。広告や異種行の一部フィールド欠損は通常の動作の場合があります |
次のステップ
最初のタスクを実行する
生成したタスクをローカルで実行し、ステータスを確認してデータをエクスポートします。
コマンドチートシート
detect、run、cloud、data、auth コマンドの完全リファレンスです。