メインコンテンツへスキップ
Octoparseは、Webブラウジング操作を再利用可能な抽出ワークフローに変換します。何を収集するか、Webサイトをどう移動するか、結果をどこへ送るかを定義します。 多くのワークフローは、作成、テスト、実行、エクスポートの4段階で進みます。

ワークフロー概要

1

作成

URL、テンプレート、またはカスタムタスクから開始します。取得するフィールドを選び、クリック、スクロール、ページネーション、詳細ページへの移動などのアクションを定義します。
2

テスト

小さなサンプルを実行し、正しいフィールド、レコード、ページ遷移が取得できるか確認します。
3

実行

テストやデバッグではローカル、本番・定期・大規模抽出ではクラウドでタスクを実行します。
4

エクスポート

抽出結果をファイル、スプレッドシート、データベース、クラウドストレージ、接続先システムへ送ります。

タスクを作成する

タスクは、OctoparseがWebサイトとどうやり取りするかを定義します。 作成方法には次があります。
  • テンプレートを使う
  • Auto-detectでページデータを自動検出する
  • ノーコードビルダーで要素を手動選択する
  • クリック、スクロール、ループ、ページネーション、待機などのアクションを追加する
  • エクスポート前にフィールド値を整形する
目的は、Webサイト上の操作を再利用可能なワークフローにすることです。

抽出ロジックをテストする

大規模に実行する前に、小さなサンプルでテストしてください。
確認項目理由
フィールドが正しい間違った値の出力を防ぐため
フィールド名が明確下流でデータを使いやすくするため
ページネーションが機能する複数ページを正しく移動できるか確認するため
詳細ページが開くリストから詳細ページへ移動するワークフローを確認するため
サンプル出力がきれいエクスポート後の手作業を減らすため
動的ページ、ログインが必要なページ、無限スクロール、ポップアップ、ユーザー操作後にデータが読み込まれるサイトでは、テストが特に重要です。

ローカルまたはクラウドで実行する

実行タイプ適した用途
ローカル抽出テスト、デバッグ、ローカル環境に依存するタスク
クラウド抽出スケジュール実行、無人実行、大規模抽出
Boost Mode対応しているクラウドタスクで速度や並列性が必要な場合
最適な選択は、対象サイト、タスクの複雑さ、実行頻度、PCをオフにしても動かしたいかによって異なります。

データをエクスポートする

タスク実行後、Octoparseは抽出結果を構造化レコードとして保存します。 一般的な出力先には次があります。
  • CSV
  • Excel
  • JSON
  • HTML
  • XML
  • Google Sheets
  • データベース
  • クラウドストレージ
自動化ワークフローでは、スケジュールエクスポートや連携先を使うことで、手動ダウンロードなしにデータを下流へ送れます。

関連ページ

ローカル実行とクラウド実行

実行環境を比較し、適切な実行モードを選びます。

エクスポート形式

Octoparseが対応する出力形式を確認します。