メインコンテンツへスキップ
抽出した生データは、そのままでは使いにくいことがよくあります。Octoparseでは、エクスポート前にフィールド値を整形し、不要な文字の削除、値の再フォーマット、必要な部分だけの抽出を行えます。

整形できること

フィールド値のクリーニング

不要な文字を削除、置換、トリム、整形します。

値の一部を抽出

一致ルールや正規表現を使って必要な部分だけを保持します。

出力の標準化

接頭辞・接尾辞を追加し、行ごとの値を一貫した形式にします。

フィールド構造の確認

値を分割できるか、ページのHTML構造に基づいて判断します。

使うタイミング

フィールドの選択は正しいが、値の形式が乱れている場合にデータ整形を使います。 例:
  • Price:Rating: のようなラベルを削除する
  • 長い文字列から数値だけを抽出する
  • 不要な記号や空白を置換する
  • 接頭辞・接尾辞を追加する
  • RegExで特定パターンを抽出する
  • HTML属性、altsrc などから値を取り出す

Clean Dataを開く

1

フィールドを選択する

整形したい抽出フィールドを選択します。
2

フィールドメニューを開く

そのフィールドの ... メニューをクリックします。
3

Clean Dataを選択する

データクリーニングのワークフローを開きます。
4

クリーニングステップを追加する

Add Step をクリックし、適用したい操作を選択します。
5

結果をプレビューする

保存前にプレビュー値を確認します。

一般的な整形操作

操作用途
Replace特定の文字列を置換、または空文字に置換して削除する
Add prefix/suffix抽出値の前後に固定テキストを追加する
Match with RegExパターンに一致するテキストを抽出する
Trim/remove characters余分な空白、記号、不要な文字を削除する
Extract from HTML/attributes画像URL、altsrc、OuterHTMLなどから値を抽出する

RegExを使う

正規表現は、単純な置換では対応しにくいパターン抽出に適しています。
  • 文中から数値を抽出する
  • 区切り文字の前後のテキストを取得する
  • HTML属性の一部だけを残す
  • 複数行に共通する繰り返しパターンを削除する
  • ページごとに少し異なる値を整形する
RegExは、単純なクリーニングルールで対応できない場合に使うのがおすすめです。単純な処理では、置換、トリム、接頭辞・接尾辞の方が保守しやすくなります。

制限

データ整形は、Octoparseが既に抽出した値を加工する機能です。Webページの構造自体は変更できません。 複数行に見えるテキストでも、HTML上で1つの要素として保存されている場合、見た目の改行だけで別フィールドに分割できないことがあります。
値がWebサイト上で1つの要素として保存されている場合、データクリーニングだけでは分割できないことがあります。要素選択、HTML構造、抽出元の値を確認してください。