メインコンテンツへスキップ
ECデータ収集は、商品ページとマーケットプレイスを構造化データに変換します。小売は競合価格を監視し、ブランドは再販業者やレビューを確認し、リサーチチームはカテゴリ動向を分析します。 対象はAmazon、Walmart、eBay、Shopifyストア、ブランドサイト、出品者ページ、レビューです。同じ商業情報でも、サイトごとにレイアウト、schema、反Bot強度が違います。

収集するデータ

種類
商品識別title、brand、ASIN/SKU/GTIN/UPC、model、URL
価格current price、list price、discount、coupon、subscription price
在庫in stock/out of stock、delivery estimate
出品者seller name、seller ID、fulfilled-by
商品内容image、description、feature bullets、specs
レビューrating、review count、review text、date
rankingbest-seller rank、search position、category rank
variantsize、color、pack count、style
Octoparse、Apify、Bright Dataのテンプレートでも、一覧、詳細、レビューを分けることが多いです。一覧は広く発見するため、詳細は商品属性、レビューはsentimentや品質分析のためです。

workflow

  1. カテゴリ/検索結果から商品URLとIDを発見する
  2. 商品詳細ページでspec、seller、variant、画像、stock signalを補う
  3. 必要な商品だけレビューを取得する
  4. snapshotとして価格/在庫を定期保存する
  5. SKU照合と正規化を行う
  6. 価格監視、品揃え分析、レビュー分析に流す

正規化

通貨、地域、送料、pack count、unit price、variant、availabilityを正規化します。サイト横断比較では、ASIN、UPC、GTIN、MPNなどの識別子を優先し、ない場合はtitle、brand、model、pack count、size、imageを組み合わせます。

反Botと規模

ECサイトは価格、在庫、レビューが商業的に重要なため、防御が強い領域です。JavaScript rendering、rate limit、CAPTCHA、IP reputation、fingerprint、layout testを想定します。小規模では丁寧なペースと実ブラウザで足りますが、大規模ではクラウド実行、subtask分割、proxy rotation、fingerprint整合性、retry logicが必要です。

コンプライアンス

robots.txt、利用規約、個人情報、seller/reviewer情報の扱いに注意します。公式APIやpartner feedが目的に合う場合はそちらを優先します。 ECスクレイピングは、価格改定、品揃え、レビュー監視、再販業者管理、市場調査など、明確な判断につながる時に価値があります。目的から逆算してフィールドと頻度を決めます。