Hi, I'm Ask INFA!
What would you like to know?
ASK INFAPreview
Please to access Ask INFA.

目次

Search

  1. はじめに
  2. データプロファイリング
  3. プロファイル
  4. プロファイル結果
  5. データプロファイリングタスクのパフォーマンスチューニング
  6. トラブルシューティング

データプロファイリング

データプロファイリング

フィルタ

フィルタ

フィルタを使用して、プロファイルがソースデータのカラムで読み取ることができる値を選択できます。フィルタは、簡易タイプとクエリフィルタタイプに基づいて作成できます。
フィルタをデータカラムに追加すると、指定したフィルタ条件を満たすデータ値に対してのみプロファイルが実行されます。フィルタは後続の実行で追加、削除、または更新できます。フィルタを追加したら、次回のプロファイル実行に必要なフィルタを選択できます。
ソースオブジェクトからカラムを削除すると、そのカラムのフィルタは、プロファイルの実行中にプロファイルから削除されます。フィルタが複数のカラムに適用され、そのうちの1つのカラムを削除すると、
データプロファイリング
は、プロファイルの実行中に、削除されたカラムを使用するフィルタまたはフィルタ条件を無視します。
以下のタイプのフィルタを作成できます。
簡易フィルタ
単純な条件付きフィルタを作成する場合、[次の値に等しい]、[次の値より小さい]、[次の値以下]、[次より大きい]、[次の値以上]、[次の値に等しくない]、[NULLである]、[NULLではない]などの演算子を選択できます。
例えば、あるデータアナリストが、Salesテーブルでプロファイルを作成する場合を考えます。ニューヨークの売上詳細を抽出してビジネスチームと共有するとします。このタスクを完了するには、
City = New York
というフィルタ条件を指定したフィルタを作成し、プロファイルに追加します。プロファイルを実行し、プロファイル結果をエクスポートしてビジネスチームと共有します。
リレーショナルデータソースの動的フィルタを作成して、日付とタイムスタンプのカラムをフィルタ処理することもできます。動的フィルタには、[今日]、[明日]、[昨日]、[来週]、[来月]、[カスタム]などのオプションが含まれます。
例えば、先月作成された注文についてプロファイルを実行する場合に、そのプロファイルを毎月実行するとします。このタスクを完了するには、
COLUMN_DATE = Last Month
とい動的フィルタ条件を指定したフィルタを作成し、プロファイルに追加します。これにより、フィルタ条件を毎月変更する必要がなくなり、
データプロファイリング
は、プロファイリングタスクの実行時に、正しい日付に解決します。
次の図は、単純な動的フィルタのサンプルを示しています。 この図は、単純な動的フィルタの例を示しています。
クエリフィルタ
カスタムSQLクエリを定義して、複雑なフィルタ条件をカラムデータに適用できます。Oracle、Amazon Redshift、Snowflakeなどのリレーショナルデータソース用のSQLフィルタを作成できます。クエリ文全体ではなく、WHERE句のみを使用してSQLクエリを入力する必要があります。
例えば、
Id IN (SELECT Id FROM TABLE_2 WHERE Id > '35') AND City='Chicago'
のように、クエリ条件で始まるSQLクエリを入力できます。
保存済みクエリを作成する前に、フィルタ条件として使用するSQL文をテストします。
データプロファイリング
は、無効なSQL文に固有のエラーメッセージを表示しません。
Google BigQueryソースオブジェクトをフィルタするには、詳細オプションの[SQLオーバーライドクエリ]を使用します。