Octoparse CLIでできること
URLからタスクを作成する
任意のURLを検査し、自動、手動、またはAIエージェントワークフローでローカルタスクファイルを生成します。
タスクを検索・確認する
クラウドタスクを一覧表示し、キーワードで検索し、タスクIDを使ってタスク詳細を確認できます。
タスクをローカルで実行する
組み込みのローカルエンジンと独立したChromeを使ってOctoparseタスクを実行できます。
タスク実行を制御する
クラウド抽出の開始・停止、ローカル実行の一時停止、再開、停止、クリーンアップができます。
データをエクスポートする
ローカルまたはクラウドのタスクデータをXLSX、CSV、HTML、JSON、XMLとしてエクスポートできます。
エージェントで自動化する
JSON出力、JSONLイベントストリーム、終了コードを使ってCLIをスクリプトやAIエージェントに統合します。
仕組み
Octoparse CLIは、ローカル抽出のために組み込みのOctoparseエンジンを直接実行します。独立したChromeを使用し、Electronデスクトップクライアントは必要ありません。 クラウド抽出はバックエンドAPI経由で制御されます。ローカル抽出はローカルエンジンによって制御されます。ローカル実行ステータスはこのCLIによって追跡され、Octoparseデスクトップクライアントのステータスとは同期されません。
要件
Octoparse CLIを使用する前に、次のものを用意してください。- Node.js 20以降
- npm 8以降
- Octoparseアカウント(APIキーまたはOAuth)
- 実行またはエクスポートしたいタスクへのアクセス権
--task-file や .otd の実行を含め、機能コマンドには認証が必要です。--help、--version、doctor、browser doctor、capabilities、auth などのセットアップ・診断コマンドは、ログイン前でも実行できます。
基本ワークフロー
クイックコマンド例
<taskId> は実際のタスクIDに、<url> はスクレイピングしたいページに置き換えてください。
現在の制限
Octoparse CLI v1は、kernel browserまたはlegacy workflowをサポートしていません。 kernel browserは、古いOctoparseランタイムワークフローで使用されていたブラウザモードを指します。legacy workflowは、現在のCLIランタイムでサポートされていない古いOctoparseタスク定義で作成されたタスクを指します。 タスクがサポートされていない場合は、現在のOctoparseデスクトップアプリでタスクを再作成または更新し、その後CLIで再実行してください。次のステップ
Octoparse CLIをインストールする
Node.jsをセットアップし、npmでCLIをインストールし、ローカルランタイムを確認します。
URLからタスクを作成する
detectを使って任意のURLからタスクファイルを生成します。
すべてのコマンドを見る
タスク、detect、ローカル実行、クラウド実行、認証、エクスポート関連のコマンドを確認します。