メインコンテンツへスキップ
このページでは、Octoparse全体で使われる基本概念を説明します。これらを理解すると、タスク作成、トラブルシューティング、データ連携がしやすくなります。

タスク

タスクは再利用可能な抽出ワークフローです。対象サイト、Octoparseが実行する手順、抽出フィールド、実行・エクスポート設定を含みます。 タスクには、URLを開く、クリック、リストのループ、ページネーション、詳細ページの展開、フィールド抽出、値の整形、ローカルまたはクラウド実行などを含められます。

テンプレート

テンプレートは、よく使われるサイトやユースケース向けの事前構築済みタスクです。抽出ワークフローやフィールドがあらかじめ設定されているため、より早く開始できます。 テンプレートが対象ページや必要なフィールドに合わない場合は、手動でタスクを作成またはカスタマイズします。

ワークフローアクション

アクション内容
Open page対象URLを読み込む
Clickボタン、リンク、メニュー、ページ要素をクリックする
Loop複数の項目に同じ操作を繰り返す
Pagination複数ページを移動する
Scroll無限スクロールや遅延読み込みの内容を表示する
Wait動的コンテンツの読み込みを待つ
Extract data選択した要素から値を取得する

フィールド

フィールドは抽出データの列です。例として、商品名、価格、評価、URL、日付、会社名、住所、レビュー本文などがあります。
分かりにくい名前よい名前
Text 1Product name
Field 2Price
LinkProduct URL
DateReview date

実行

実行とは、タスクを1回動かすことです。同じタスクを何度も実行して、更新された結果を取得できます。実行はローカルまたはクラウドで行えます。

エクスポート

エクスポートは、抽出データをOctoparseの外へ送る操作です。ファイル、スプレッドシート、データベース、クラウドストレージ、接続アプリなどに出力できます。

全体の関係

1

タスクを作成または選択する

テンプレート、Auto-detect、またはカスタムワークフローから始めます。
2

アクションとフィールドを定義する

ページの移動方法と取得する値を指定します。
3

タスクを実行する

ワークフローをローカルまたはクラウドで実行します。
4

結果をエクスポートする

構造化データを必要な保存先へ送ります。