ブラウザフィンガープリントとは、デバイス、ブラウザ、画面サイズ、言語、タイムゾーン、Cookie、操作パターンなどの信号からブラウザセッションを識別する方法です。
Octoparseはブラウザベースの抽出を行うため、ブラウザ環境やセッション状態がタスクの安定性に影響することがあります。
Webサイトが確認する可能性のある信号
- ブラウザの種類とバージョン
- User-Agent
- Cookieとセッション状態
- 言語とタイムゾーン
- 画面サイズやビューポート
- IPアドレスと地域
- 読み込み挙動
- 操作タイミング
- 繰り返しアクセスパターン
なぜ重要か
| 状況 | 考えられる理由 |
|---|
| ローカルでは動くがクラウドで失敗する | サイトがクラウド環境を別扱いしている |
| ログインが突然切れる | セッションやCookie信号が変わった |
| CAPTCHAが出る | 不自然なブラウザやアクセスとして検出された |
| 実行ごとに内容が違う | 地域、言語、セッション状態が変わった |
問題を減らす方法
ローカルでテストする
内蔵ブラウザでサイトの挙動を観察します。
ログインとCookieを安定させる
セッション依存ページでは一貫した設定を使います。
必要に応じて地域を制御する
地域やIPで内容が変わる場合はプロキシを検討します。
過度な実行を避ける
待機を入れ、不要な高頻度アクセスを避けます。
ログを比較する
ローカルとクラウドで挙動が違う場合はログを比較します。
フィンガープリント判定は対象Webサイト側で制御されます。Octoparseは安定したワークフロー作成を支援しますが、すべてのサイトで自動抽出を保証するものではありません。