一部のWebサイトでは、データを見るためにログインが必要です。Octoparseでは、必要なセッション状態を維持するようにタスクを設定することで、ログイン後のページを扱える場合があります。
対象データへのアクセス権限があり、ログイン後にのみ表示されるデータを取得する必要がある場合に使用します。
ログイン設定が必要なケース
- データがアカウントの背後にある
- 検索結果や詳細ページに認証が必要
- ログイン後に表示内容が変わる
- 抽出中にセッションが期限切れになる
- クラウド実行でログイン状態が使えない
- Cookieが地域、言語、ユーザー固有コンテンツを制御している
基本フロー
サイトを開く
ログインページまたは認証が必要なページから開始します。
Browse Modeを使う
通常のブラウザのように操作してログインまたは目的のページ状態に到達します。
セッション設定を保存する
抽出時にログインやCookie状態が利用できるよう設定します。
タスクをテストする
保護されたコンテンツへアクセスできるかサンプル実行で確認します。
期限切れを監視する
サイトがログアウトやCookie失効を行う場合は定期的に確認します。
よくある問題
| 問題 | 考えられる原因 |
|---|
| ログインページが返る | セッション失効またはログイン状態が保存されていない |
| ローカルでは動くがクラウドで失敗する | クラウド実行に同じセッション状態がない |
| 実行ごとにデータが違う | Cookie、地域、アカウント状態が変わった |
| CAPTCHAが出る | 不自然なセッション挙動と判断された |
許可されたデータのみを抽出してください。ログインできることは、そのデータを収集・再利用できることを自動的に意味しません。