メインコンテンツへスキップ
Octoparse CLIは、ターミナルからOctoparseタスクを作成、実行、管理、エクスポートするためのコマンドラインツールです。 デスクトップアプリとは異なり、Octoparse CLIはスクリプト化されたワークフロー、CI/CDパイプライン、サーバー環境、自動化されたデータパイプラインでの利用を想定しています。

Octoparse CLIでできること

URLからタスクを作成する

任意のURLを検査し、自動、手動、またはAIエージェントワークフローでローカルタスクファイルを生成します。

タスクを検索・確認する

クラウドタスクを一覧表示し、キーワードで検索し、タスクIDを使ってタスク詳細を確認できます。

タスクをローカルで実行する

組み込みのローカルエンジンと独立したChromeを使ってOctoparseタスクを実行できます。

タスク実行を制御する

クラウド抽出の開始・停止、ローカル実行の一時停止、再開、停止、クリーンアップができます。

データをエクスポートする

ローカルまたはクラウドのタスクデータをXLSX、CSV、HTML、JSON、XMLとしてエクスポートできます。

エージェントで自動化する

JSON出力、JSONLイベントストリーム、終了コードを使ってCLIをスクリプトやAIエージェントに統合します。

仕組み

Octoparse CLIは、ローカル抽出のために組み込みのOctoparseエンジンを直接実行します。独立したChromeを使用し、Electronデスクトップクライアントは必要ありません。 クラウド抽出はバックエンドAPI経由で制御されます。ローカル抽出はローカルエンジンによって制御されます。
ローカル実行ステータスはこのCLIによって追跡され、Octoparseデスクトップクライアントのステータスとは同期されません。

要件

Octoparse CLIを使用する前に、次のものを用意してください。
  • Node.js 20以降
  • npm 8以降
  • Octoparseアカウント(APIキーまたはOAuth)
  • 実行またはエクスポートしたいタスクへのアクセス権
詳しいバージョン要件、セットアップ手順、Linux arm64の制限についてはインストールを参照してください。 ローカルの --task-file.otd の実行を含め、機能コマンドには認証が必要です。--help--versiondoctorbrowser doctorcapabilitiesauth などのセットアップ・診断コマンドは、ログイン前でも実行できます。

基本ワークフロー

1

Octoparse CLIをインストールする

npmを使ってCLIをグローバルにインストールします。
2

認証する

OAuthまたはOctoparse APIキーでログインします。CIでは OCTO_ENGINE_API_KEY 環境変数を使用します。
APIキーをGit、スクリプト、ドキュメント、スクリーンショット、共有ログ、CI出力に含めないでください。
3

タスクを作成または検索する

octoparse detect <url> でURLからタスクファイルを生成するか、octoparse task list で既存のタスクIDを検索します。
4

タスクを実行または制御する

タスクをローカルで実行する、クラウド実行を開始・停止する、または実行ステータスを確認します。
5

データをエクスポートする

ローカルまたはクラウドの結果から収集データをエクスポートします。

クイックコマンド例

<taskId> は実際のタスクIDに、<url> はスクレイピングしたいページに置き換えてください。
octoparse --help
octoparse doctor
octoparse auth login
octoparse detect <url> --auto --goal "商品タイトルと価格を抽出" --output task.json
octoparse task list
octoparse task inspect <taskId>
octoparse run <taskId>
octoparse cloud start <taskId>
octoparse local status <taskId>
octoparse data export <taskId> --source local --format xlsx

現在の制限

Octoparse CLI v1は、kernel browserまたはlegacy workflowをサポートしていません。 kernel browserは、古いOctoparseランタイムワークフローで使用されていたブラウザモードを指します。legacy workflowは、現在のCLIランタイムでサポートされていない古いOctoparseタスク定義で作成されたタスクを指します。 タスクがサポートされていない場合は、現在のOctoparseデスクトップアプリでタスクを再作成または更新し、その後CLIで再実行してください。

次のステップ

Octoparse CLIをインストールする

Node.jsをセットアップし、npmでCLIをインストールし、ローカルランタイムを確認します。

URLからタスクを作成する

detectを使って任意のURLからタスクファイルを生成します。

すべてのコマンドを見る

タスク、detect、ローカル実行、クラウド実行、認証、エクスポート関連のコマンドを確認します。