整形できること
フィールド値のクリーニング
不要な文字を削除、置換、トリム、整形します。
値の一部を抽出
一致ルールや正規表現を使って必要な部分だけを保持します。
出力の標準化
接頭辞・接尾辞を追加し、行ごとの値を一貫した形式にします。
フィールド構造の確認
値を分割できるか、ページのHTML構造に基づいて判断します。
使うタイミング
フィールドの選択は正しいが、値の形式が乱れている場合にデータ整形を使います。 例:Price:やRating:のようなラベルを削除する- 長い文字列から数値だけを抽出する
- 不要な記号や空白を置換する
- 接頭辞・接尾辞を追加する
- RegExで特定パターンを抽出する
- HTML属性、
alt、srcなどから値を取り出す
Clean Dataを開く
一般的な整形操作
| 操作 | 用途 |
|---|---|
| Replace | 特定の文字列を置換、または空文字に置換して削除する |
| Add prefix/suffix | 抽出値の前後に固定テキストを追加する |
| Match with RegEx | パターンに一致するテキストを抽出する |
| Trim/remove characters | 余分な空白、記号、不要な文字を削除する |
| Extract from HTML/attributes | 画像URL、alt、src、OuterHTMLなどから値を抽出する |
RegExを使う
正規表現は、単純な置換では対応しにくいパターン抽出に適しています。- 文中から数値を抽出する
- 区切り文字の前後のテキストを取得する
- HTML属性の一部だけを残す
- 複数行に共通する繰り返しパターンを削除する
- ページごとに少し異なる値を整形する
RegExは、単純なクリーニングルールで対応できない場合に使うのがおすすめです。単純な処理では、置換、トリム、接頭辞・接尾辞の方が保守しやすくなります。