メインコンテンツへスキップ
ソーシャルメディアデータは、言語、関心、苦情、trend、creator、community、公開反応をほぼリアルタイムで捉えます。一方で、利用規約、ユーザー期待、個人情報の観点で最も慎重に扱うべきデータ領域でもあります。 公開データだけを、許可された用途で、必要最小限の範囲で収集します。公式APIが目的を満たす場合は、スクレイピングより優先すべきです。

収集対象

  • ブランド/評判監視
  • creator/influencer discovery
  • 公開レビュー・苦情分析
  • trend detection
  • 採用・企業調査
  • community research
  • 競合コンテンツ分析
一般的なフィールドは、投稿本文、author metadata、timestamp、engagement count、media URL、profile URL、hashtag、comment、source URLです。

プラットフォーム別の考え方

プラットフォーム公開データ例用途
Redditposts、comments、subreddit、scorecommunity research、sentiment
YouTubevideo metadata、comments、channelscreator discovery、review mining
TikTokpublic videos、captions、creator profilestrend monitoring
X/Twitterposts、profiles、reply/repost/likenews、event monitoring
LinkedInpublic profiles、companies、jobs、postsB2B research、hiring signals
Facebook/Instagrampublic pages/posts/commentslocal business、brand monitoring
Bright DataのLinkedIn Scraper APIはprofiles、companies、jobs、postsに分かれています。ApifyのLinkedIn actorも同様です。これは一般原則として有用です。SNSは1つのデータセットではなく、ページ種別ごとに別workflowとして扱います。

公開データとログインデータ

もっとも重要なのはアクセスレベルです。ログインなしで見える公開データ、ログイン後に見える公開ページ、DMやprivate groupのような非公開データは区別します。非公開・権限付きデータは明示的な許可がない限り避けます。

技術的な課題

SNSは無限スクロール、cursor API、削除/編集、engagementの継続変化、personalized search、login prompt、rate limit、IP/fingerprint/behavior/account trustを組み合わせた防御を持ちます。 長期監視ではsnapshotを保存します。後で投稿が消えることがあるため、source timestamp、取得日時、削除対応を設計します。

データ品質

  • 言語判定
  • repost/duplicate検出
  • spam/bot account filtering
  • time window正規化
  • hashtag/mention抽出
  • community context
  • raw engagementではなくengagement rate
sentiment分析では、皮肉、引用、platform slang、組織的投稿に注意します。

コンプライアンスと倫理

プラットフォーム規約、robots.txt、個人情報、削除/opt-out、データ最小化を尊重します。研究用途ではquery、収集期間、sampling limit、platform constraintを記録します。商用利用では早い段階でlegal/privacy reviewを入れます。 テンプレートやmanaged scraperは、LinkedIn jobs、public company pages、YouTube comments、Reddit posts、TikTok public profilesのような定番ページに向いています。ただし、SNSでは収集方法自体が分析結果に影響します。スクレイピングは単なる配管ではなく、分析手法の一部として扱う必要があります。