データ整形

抽出した生データは、そのままでは使いにくいことがよくあります。Octoparseでは、エクスポート前に抽出フィールドを整形できます。テキストのクリーニング、値の再構成、不要な文字の削除、必要な部分だけの抽出を行えます。誤った要素が抽出されている場合は、まずフィールド選択を修正してください。正しい要素を選択できているものの、値の形式が乱れている場合は、整形ルールを使用します。

対応できるシナリオ

乱れた値をクリーニングする

エクスポート前に、テキストの削除、置換、トリミング、再フォーマットを行います。

値の一部を抽出する

マッチングルールや正規表現を使って、必要なテキストパターンだけを残します。

行ごとの値を標準化する

接頭辞を追加したり、繰り返しテキストを削除したり、行ごとにばらつく値を正規化します。

日付とタイムスタンプを整形する

日付形式、相対日付、Unixタイムスタンプ、タイムゾーンオフセットを一貫した形式に変換します。

よくある例：

Price:やRating:のようなラベルを削除する
不要な文字や余分な空白を置換する
各値に接頭辞または接尾辞を追加する
日付を再フォーマットする、またはタイムゾーンを変換する
HTMLエンティティをプレーンテキストに変換する

Clean Dataを開く

フィールドを選択する

データプレビューまたはフィールド一覧で、クリーニングしたい抽出フィールドを選択します。

フィールドメニューを開く

対象フィールドの...メニューをクリックします。

Clean Dataを選択する

Clean Dataを選択して、データクリーニングのワークフローを開きます。

クリーニングステップを追加する

Add Stepをクリックし、適用したい操作を選びます。

結果をプレビューする

ルールを保存する前に、プレビュー値を確認します。

一般的な整形操作

操作	用途
Replace	特定の文字列を別の値に置換します。空文字に置換すると、その文字列を削除できます。 _{空文字とは文字がまったくない状態を指します。空文字に置換すると、一致したテキストは出力から削除されます。}
Replace with Regular Expression	RegExパターンを使って、一致する文字列を検索、置換します
Match with Regular Expression	パターンに一致する値の一部だけを残し、それ以外を破棄します
Trim spaces	値の先頭または末尾にある不要な空白を削除します
Add a prefix	抽出値の前に固定テキストを追加します
Add a suffix	抽出値の後に固定テキストを追加します
Reformat extracted date/time	日付形式や相対日付（`2 days ago`→具体的な日付）を変換します。 _{組み込み形式には、yyyy/MM/dd hh:mm:ss、yyyy-MM-dd、01/01/2026、Thu、01 01 2026などがあります。}
Timestamp conversion	Unixタイムスタンプを読みやすい日付形式に変換します
Timezone conversion	日付と時刻を指定したタイムゾーンに調整します
HTML transcoding	HTMLエンティティをプレーンテキストに変換します（例：`&`→`&`）

文字列とは、単語、数字、空白、記号、句読点などを含む文字の並びです。空文字は文字がまったくない状態を指します。たとえば、値を空文字に置換すると、その値を出力から削除できます。

RegExでパターンベースのクリーニングを行う

正規表現は、値に一定のパターンがあるものの、単純な置換やトリミングだけでは安定して処理できない場合に役立ちます。

文中に含まれる数値や価格を抽出する
既知の区切り文字（例：:, |, -）の前後のテキストを取得する
HTML属性値の一部だけを残す
行ごとに異なる形で繰り返されるパターンを削除する
ページごとに少し変化する値から部分文字列を切り出す

RegExツールはClean Dataワークフロー、または左サイドバーのToolsエリアから開けます。OctoparseにはAI RegExジェネレーターも用意されています。抽出したい内容を自然言語で説明すると、手動で式を書かなくてもパターンを生成できます。

目的	パターン	入力	出力
価格を抽出	`\$\d+(?:\.\d{1,2})?`	`Only $19.99 today`	`$19.99`
メールアドレスを抽出	`[\w.-]+@[\w.-]+\.\w+`	`Contact: info@example.com`	`info@example.com`
日付（YYYY-MM-DD）を抽出	`\d{4}-\d{2}-\d{2}`	`Published 2025-06-10`	`2025-06-10`
数字のみ抽出	`\d+`	`Rating: 4.5 out of 5`	`4`
HTMLタグを削除	`<[^>]+>`	`<b>Bold text</b>`	`Bold text`

パターンと構文の一覧は、ヘルプセンターのRegEx Cheatsheet for Data Extractionを参照してください。

RegExは、より単純なクリーニングルールでは不十分な場合に使用します。通常の整形では、置換、トリミング、接頭辞、接尾辞のほうが保守しやすくなります。

例：属性から値を抽出する

一部のWebサイトでは、役立つデータが表示テキストではなく属性に保存されています。たとえば、評価がalt="5 stars"のような画像属性や、srcの値に保存されていることがあります。

要素を選択する

評価アイコンやテキストブロックなど、必要な値を含む要素を選択します。

ソース値を選択する

値が保存されている場所に応じて、Image URL、OuterHTML、Other Attributesなどを選択します。

フィールドをカスタマイズする

フィールドメニューを開き、Customize FieldまたはClean Dataを選択します。

対象値を抽出する

関連する属性を選択するか、RegExを使って残したいHTML部分に一致させます。

保存前にプレビューする

タスクを実行する前に、プレビューで期待どおりの値が表示されていることを確認します。

フィールド整形の制限

整形ルールは、Octoparseがすでに抽出した値をクリーニングします。Webページの構造そのものは変更しません。たとえば、複数行に見えるテキストブロックでも、ページソース上では1つの要素として保存されている場合があります。この場合、見た目の改行だけで別々のフィールドに分割できないことがあります。データが実際にどのように保存されているかに応じて、ソース構造を確認し、フィールド選択、抽出設定、RegExクリーニングを使い分けます。

Webサイトが値を1つの要素として保存している場合、データクリーニングだけでは分割できないことがあります。選択した要素を調整する、HTMLを確認する、別のソース値を抽出するなどの対応が必要です。

ベストプラクティス

正しい要素が選択されていることを確認してからフィールドを整形します。
RegExを使う前に、単純なクリーニングステップを試します。
各ステップを保存する前にプレビューします。
エクスポート後のデータが理解しやすいよう、フィールド名を明確にします。
後続システムで整形できる場合は、過度なクリーニングを避けます。
複雑なRegExパターンは、チームメンバーが保守できるよう記録しておきます。

はじめに

タスク

タスク実行

モニタリング

データエクスポート

ブロック対策

チームとガバナンス

対応できるシナリオ

乱れた値をクリーニングする

値の一部を抽出する

行ごとの値を標準化する

日付とタイムスタンプを整形する

Clean Dataを開く

一般的な整形操作

RegExでパターンベースのクリーニングを行う

例：属性から値を抽出する

フィールド整形の制限

ベストプラクティス

​対応できるシナリオ

乱れた値をクリーニングする

値の一部を抽出する

行ごとの値を標準化する

日付とタイムスタンプを整形する

​Clean Dataを開く

​一般的な整形操作

​RegExでパターンベースのクリーニングを行う

​例：属性から値を抽出する

​フィールド整形の制限

​ベストプラクティス

対応できるシナリオ

Clean Dataを開く

一般的な整形操作

RegExでパターンベースのクリーニングを行う

例：属性から値を抽出する

フィールド整形の制限

ベストプラクティス