プロキシが変えるもの
プロキシはスクレイパーと対象サイトの間に入ります。対象サイトからは、操作者の直接IPではなくproxyのIPが見えます。 役立つ場面:- rate limitの分散
- blocked IPの除外
- 地域限定コンテンツへのアクセス
- 操作者のローカルIPを直接晒さない
- クラウド並列実行でsubtaskごとに通信経路を分ける
プロキシの種類
データセンタープロキシ
hosting providerやcloud infrastructure由来のIPです。速く安く、大量に入手しやすい一方、保護の強いサイトではhosting rangeとしてまとめて低信頼に扱われることがあります。軽いサイトやvolume対策には有効です。residential proxy
一般家庭向けISPに紐づくIPを使います。通常ユーザーに近く見えやすく、EC、検索、旅行、マーケットプレイスなどで成功率が上がることがあります。コストと調達倫理が重要です。IP poolがどのように集められているか説明できるproviderを選びます。ISP proxy
データセンターの安定性とISP登録IPの見え方の中間です。sticky session、安定した地域、datacenterより良いreputationが必要な時に向いています。mobile proxy
携帯キャリア網を経由します。carrier-grade NATにより多くの実ユーザーとIPを共有するため信頼されやすい場合がありますが、高価で過剰なことも多いです。mobile-firstの対象や、他のproxy typeが一貫して失敗する場合に限定して使います。ローテーション戦略
常に「リクエストごとに新しいIP」が正解ではありません。リクエスト単位
公開検索結果や単純な一覧ページのようなstatelessな対象では使えます。Cookie、cart、login、地域一貫性が必要なsessionでは危険です。sticky session
一定時間または1セッション中は同じIPを保ちます。JavaScriptが重いサイト、ログイン後ページ、ページネーション、地域やCookieの継続性が必要なタスクに向いています。タスク単位
カテゴリ、都市、keyword、URL batchなど、subtaskごとにproxy identityを割り当てます。クラウド実行のsubtask分割と相性が良く、失敗時の再試行もしやすくなります。地域指定
米国価格を集めるなら米国IP、国別在庫を比較するなら国ごとに分割します。timezone、language、browser fingerprintもproxy地域と整合させます。ユースケース別の選び方
| 用途 | proxy方針 |
|---|---|
| 公開静的ページ | proxyなし、またはdatacenter + 控えめなrate |
| 大規模商品カタログ | 防御に応じてdatacenterまたはresidential |
| 検索/マーケットプレイス | residential/ISP + sticky session |
| ログイン後ダッシュボード | アカウントごとに安定IP、過度なrotationは避ける |
| 地域別価格/在庫 | 国/地域指定proxy |
| mobile-onlyコンテンツ | 必要な場合のみmobile proxy |
よくある失敗
- IPを頻繁に変えすぎる
- 安いblocked IP poolを使う
- IP地域とtimezone/languageが矛盾する
- ログイン中にIPを変える
- 対象サイトの負荷を考えずに並列化する
- proxyを使えば規約や法的問題が消えると誤解する