実際の、ヘッド付きブラウザで動き、指紋が管理されたスクレイパーは、Bot対策の「このセッションは何に見えるか」という層を片付けたことになります。ただしそれは入口を通れるだけ。最近のBot対策システムは、その訪問者が中に入ってから何をするかも観察します — マウスがどう動くか、どこをクリックするか、入力速度はどうか、読む前にスクロールするか、ページに時間を使うか、それともデータに直行するか。「人間らしく見える」はアイデンティティの上に積まれた層で、他のすべては綺麗なスクレイパーがここで捕まることが多いのです。Documentation Index
Fetch the complete documentation index at: https://www.octoparse.com/docs/llms.txt
Use this file to discover all available pages before exploring further.
機械はやって、人間はやらないこと
行動上のしるしは予測可能で、Bot対策の世界ではよくプロファイルされています:- マウスが直線で動く。実際のユーザーのカーソルは曲がり、ぶれ、行き過ぎ、戻ります。Botは通常AからBへの直線を補間します。
- クリックがピクセル単位で中心に当たる。人間はボタンに「狙いを定める」だけで、毎回ど真ん中には当たりません。ピクセル完璧なクリックは決定的な手がかりです。
- タイミングが一定。すべての動作の間に
sleep(2)が入っていれば、まさにそう見えます。実際のユーザーはばらつき、時に大きくばらつきます。 - スクロールも滞在もない。Botは必要なものを取って去ります。人間はスクロールし、見回し、迷い、時には戻ります。
- 遷移が効率的すぎる。Botはデータへの最短経路を辿ります。人間は寄り道します — 違うリンクを押し、戻り、関連ページも見ます。
行動を人間らしく設計する
定石は上のしるしと一対一で対応します:- マウス軌跡。直線的な
moveToをベジエ曲線やノイズの乗った経路に置き換える — 弧を描き、ぶれ、時に行き過ぎる。 - クリックオフセット。要素のバウンディングボックスの中で、中心から少しずれた位置をクリックする — 毎回幾何的な中心ではなく、要素内に収まる小さなランダムオフセット。
- タイミング分布。固定の
sleepを分布(対数正規分布が扱いやすい)からのサンプルに置き換え、動作間隔がリズミカルでなく有機的に見えるようにする。 - スクロールと滞在。スクロールイベントとポーズを挟む;欲しいデータがすでにDOMにあっても、ページである程度時間を経過させる。
- 不完全な遷移。時にターゲット外のリンクをクリックして戻る;目的のページの前に近隣のページをいくつか訪れる。
Octoparseのアプローチ
Octoparseはタスク実行の中で実際のブラウジング動作をシミュレートします — マウスは直線ではなく曲線軌跡を辿り、クリックは要素の中心ではなくランダムにオフセットされた位置に当たり、動作のタイミングは一定間隔で発火するのではなく揺らぎを持ちます。これらのパターンによって、Bot対策システムがプロファイルする「機械的な署名」が落ち、操作者がその揺らぎを手書きでスクリプト化する必要もありません。 行動シミュレーションはOctoparseの主動的な指紋管理と組み合わさります — 実行環境はセッションごとに異なるリアルなユーザーに見え、ページ上では実際にそのように振る舞います。いつ効くのか、いつ要らないのか
行動のステルスには実際にコストがかかります — エンジニアリング、設定、時にはスループット。投資は的を絞るべきです:- 軽い防御(静的、または弱く守られたサイト)。やらない。普通のヘッド付きブラウザで充分;労力は別のところに。
- 中程度の防御(レート制限 + 基本的なBot検知)。行動側の整備は価値あり — タイミング分布、スクロール、マウス曲線。
- 重い防御(Cloudflare、DataDome、HUMAN、Akamai Bot Manager)。必須。リアルな振る舞いなしには、フルブラウザ描画のコストを払いながら、それでもブロックされます。