メインコンテンツへスキップ
Smart decision engineは今後提供予定の機能です。Octoparseがこれまでに蓄積した実行履歴データを活用しており、正式提供までに挙動が変わる可能性があります。
Smart decision engineは、スクレイピングタスクを実行する環境そのものです。低レベルの設定を手動で調整するのではなく、対象サイトを解析し、成功する実行に必要なブラウザ・IPリソース・ブロック回避設定・計算リソースを自動的に選択します。 判断は過去の実行履歴データに基づきます。特定サイトでどの構成が成功したか、どこでブロックが発生したか、どのリソースが最も安定して抽出できたかを参照します。

自動構成される項目

エンジンはタスクごとに4種類のスクレイピングリソースを管理します。

ブラウザ環境

対象サイトに適したレンダリングエンジン、ブラウザフィンガープリント、ページ読み込み挙動を選択します。

プロキシ・IPリソース

サイトの所在地やブロック傾向に応じて、IPプール、ローテーション方式、地域別IPを選びます。

ブロック回避

Captcha対応、User-Agentやcookie戦略、リクエストレート・並列数の制御を適用します。

計算・クラウドリソース

適切な規模で実行できるよう、クラウドノード・並列数・スケジューリングを割り当てます。

判断の流れ

エンジンは現在の対象と実行履歴データを組み合わせて構成を決定します。
1

対象を解析する

サイトの構造、所在地、既知のブロック挙動を確認します。
2

履歴データを参照する

類似の実行でどの構成が成功し、どこでブロックされたかを確認します。
3

環境を組み立てる

今回の実行に使うブラウザ・IPリソース・ブロック回避・計算リソースを選択します。
4

実行ごとに最適化する

結果を履歴データに反映し、次回の実行をより良い初期状態から開始します。

メリット

  • ブラウザ・プロキシ・ブロック回避設定の手動調整が不要になります。
  • 類似サイトで有効だった構成を再利用し、成功率を高めます。
  • 固定構成ではなく、タスクに応じてリソースを調整します。
  • 過去の実行で観測したブロック傾向に対応します。
自動構成によりセットアップは軽減されますが、本番で大規模に実行する前に複数のページ例で出力を確認してください。