メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://www.octoparse.com/docs/llms.txt

Use this file to discover all available pages before exploring further.

実際の、ヘッド付きブラウザで動き、指紋が管理されたスクレイパーは、Bot対策の「このセッションは何に見えるか」という層を片付けたことになります。ただしそれは入口を通れるだけ。最近のBot対策システムは、その訪問者が中に入ってから何をするかも観察します — マウスがどう動くか、どこをクリックするか、入力速度はどうか、読む前にスクロールするか、ページに時間を使うか、それともデータに直行するか。「人間らしく見える」はアイデンティティの上に積まれた層で、他のすべては綺麗なスクレイパーがここで捕まることが多いのです。

機械はやって、人間はやらないこと

行動上のしるしは予測可能で、Bot対策の世界ではよくプロファイルされています:
  • マウスが直線で動く。実際のユーザーのカーソルは曲がり、ぶれ、行き過ぎ、戻ります。Botは通常AからBへの直線を補間します。
  • クリックがピクセル単位で中心に当たる。人間はボタンに「狙いを定める」だけで、毎回ど真ん中には当たりません。ピクセル完璧なクリックは決定的な手がかりです。
  • タイミングが一定。すべての動作の間にsleep(2)が入っていれば、まさにそう見えます。実際のユーザーはばらつき、時に大きくばらつきます。
  • スクロールも滞在もない。Botは必要なものを取って去ります。人間はスクロールし、見回し、迷い、時には戻ります。
  • 遷移が効率的すぎる。Botはデータへの最短経路を辿ります。人間は寄り道します — 違うリンクを押し、戻り、関連ページも見ます。
これらが組み合わさって行動指紋を形成し、一部のBot対策ベンダーは技術的指紋と同じくらい積極的にプロファイリングします。

行動を人間らしく設計する

定石は上のしるしと一対一で対応します:
  • マウス軌跡。直線的なmoveToをベジエ曲線やノイズの乗った経路に置き換える — 弧を描き、ぶれ、時に行き過ぎる。
  • クリックオフセット。要素のバウンディングボックスの中で、中心から少しずれた位置をクリックする — 毎回幾何的な中心ではなく、要素内に収まる小さなランダムオフセット。
  • タイミング分布。固定のsleepを分布(対数正規分布が扱いやすい)からのサンプルに置き換え、動作間隔がリズミカルでなく有機的に見えるようにする。
  • スクロールと滞在。スクロールイベントとポーズを挟む;欲しいデータがすでにDOMにあっても、ページである程度時間を経過させる。
  • 不完全な遷移。時にターゲット外のリンクをクリックして戻る;目的のページの前に近隣のページをいくつか訪れる。
どれも単独では決定打にはなりません — 組み合わさることで、行動指紋が「Bot」から「曖昧、あるいは人間」へとシフトします。

Octoparseのアプローチ

Octoparseはタスク実行の中で実際のブラウジング動作をシミュレートします — マウスは直線ではなく曲線軌跡を辿り、クリックは要素の中心ではなくランダムにオフセットされた位置に当たり、動作のタイミングは一定間隔で発火するのではなく揺らぎを持ちます。これらのパターンによって、Bot対策システムがプロファイルする「機械的な署名」が落ち、操作者がその揺らぎを手書きでスクリプト化する必要もありません。 行動シミュレーションはOctoparseの主動的な指紋管理と組み合わさります — 実行環境はセッションごとに異なるリアルなユーザーに見え、ページ上では実際にそのように振る舞います。

いつ効くのか、いつ要らないのか

行動のステルスには実際にコストがかかります — エンジニアリング、設定、時にはスループット。投資は的を絞るべきです:
  • 軽い防御(静的、または弱く守られたサイト)。やらない。普通のヘッド付きブラウザで充分;労力は別のところに。
  • 中程度の防御(レート制限 + 基本的なBot検知)。行動側の整備は価値あり — タイミング分布、スクロール、マウス曲線。
  • 重い防御(Cloudflare、DataDome、HUMAN、Akamai Bot Manager)。必須。リアルな振る舞いなしには、フルブラウザ描画のコストを払いながら、それでもブロックされます。
判断ルール:ステルスへの投資は、対象サイトが実際に何をしてくるかに合わせる。やりすぎは無駄、足りなければ全部無駄。 行動ステルスの指紋側のもう一方についてはブラウザフィンガープリンティング、これに対処する具体的なBot対策サービスについてはCAPTCHAとCloudflareの突破、ネットワーク層の関連事項についてはローテーティングプロキシを参照してください。