Hi, I'm Ask INFA!
What would you like to know?
ASK INFAPreview
Please to access Ask INFA.

目次

Search

  1. はじめに
  2. データプロファイリング
  3. プロファイル
  4. プロファイル結果
  5. データプロファイリングタスクのパフォーマンスチューニング
  6. トラブルシューティング

データプロファイリング

データプロファイリング

プロファイルへのルールの追加

プロファイルへのルールの追加

ルール仕様、クレンジング、解析、および検証用アセットをルールとしてプロファイルに追加できます。これらのアセットは
Data Quality
で作成します。
Data Quality
アセットに対する読み取り権限がある場合は、このアセットをルールとして追加できます。また、
Data Quality
アセットを所有するか、所有しない可能性のあるパッシブなマップレットのプロファイルを作成することもできます。プロファイリングによって、値の頻度を含む、マップレットの出力ポートでのすべての統計が計算されます。
データプロファイリングタスクに対して1つ以上のルールを追加できます。ルールなしでプロファイルを実行することもできます。
データプロファイリング
により、カラム統計とルールの結果が結果領域の折りたたみ可能なセクションに表示されます。各ルール出力の結果が個別の行に表示されます。
Data Quality
でルール仕様、クレンジング、解析、または検証用アセットを作成する際に、アセットの入力、ルールロジック、および出力を設定します。
データプロファイリング
でアセットをルールとして追加すると、入力が入力カラムとして表示され、出力がルール出力として表示されます。プロファイルには、単一入力単一出力のルールと複数入力単一出力のルールを追加できます。ルールをプロファイルに追加する際に、入力カラムにソースカラムを割り当てます。プロファイルを実行すると、
データプロファイリング
によってルールロジックに基づいて統計が生成されます。
[結果]
タブで、ルール出力統計が個別の行に表示されます。
例えば、ルール仕様「Validity」に、in_valueという入力、ルールロジック、およびout_validityという出力があるとします。ここで、Customerテーブルの「customer-national_ID」というソースカラムに対して分析を実行するとします。このタスクを完了するには、次の手順を実行します。
  1. [ルール]
    タブで、[追加]をクリックしてルールをプロファイルに追加します。
  2. [ルールの追加]
    で、「Validity」ルールを選択します。
  3. [ルールの設定]
    ダイアログボックスで、カラム「customer-national_ID」を入力カラムとして選択します。
    データプロファイリング
    により、選択したカラムが入力「in_value」に割り当てられます。
  4. プロファイルを実行します。
  5. データプロファイリングにより、ルールロジックに基づいてルール統計が生成されます。
  6. [結果]
    タブで、ルール統計が「out_validity」行に表示されます。
単一入力のルールを追加する場合は、そのルールに複数のカラムを割り当てることができます。
データプロファイリング
により、カラムごとにルールがレプリケートされます。複数入力のルールをプロファイルに追加する場合は、ルール内の入力ごとにカラムを追加できます。
データプロファイリング
により、選択した各カラムの結果が個別の行に表示されます。
次の
Data Quality
アセットをルールとしてプロファイルに追加できます。

ルール仕様

このアセットを使用して、データの評価に使用できる一連の条件を使用してビジネスルールを定義します。単一の出力を持つルール仕様を追加できます。
ルール仕様には、単一のパッシブマップレットまたはネストされたパッシブマップレットを含めることもできます。ルール仕様では、パッシブトランスフォーメーションを含むマップレットを使用できます。マップレットでは次のアセットを使用できます。
  • 解析
  • クレンジング
  • ラべラー
  • ルール仕様
  • ベリファイヤ
  • Java
  • パッシブトランスフォーメーションを含むマップレット
ルール仕様でのマップレットの使用の詳細については、
Data Quality
ドキュメントにある、ルール仕様のアセットに関する説明を参照してください。
例えば、販売アナリストが、Salesテーブルの小売売上を分析するとします。
  1. Data Quality
    で、次の手順を実行します。
    1. Reg_pyrという名前のルール仕様を作成します。
    2. 入力としてRegionとSalesYearを追加します。
    3. ルールロジックを作成してテストします。
    4. ルール仕様を保存します。
  2. データプロファイリング
    で、次の手順を実行します。
    1. Salesテーブルでプロファイルを作成します。
    2. プロファイルにReg_pyrルールを追加し、ルールに対してRegionおよびSalesYearソースカラムを選択します。
    3. プロファイルを保存して実行します。
    4. [結果]
      タブで結果を確認します。必要に応じて、結果をMicrosoft Excelファイルにエクスポートするか、コンテンツを区切りファイルに生成するクエリを実行して、さらに分析を行います。

クレンジング

このアセットは、データの外観の標準化、データ内の正しくない値の置き換え、データからの不要な値の削除を行うためのルールとして使用します。
例えば、データアナリストがCustomerテーブルのFirstNameカラムとLastNameカラムを読みやすくするために、各単語の先頭文字のみ大文字に変換するとします。このタスクを完了するには、次の手順を実行します。
  1. Data Quality
    で、次の手順を実行します。
    1. FN_SenCという名前のクレンジングアセットを作成します。
    2. ステップシーケンスを追加し、大文字小文字表記として
      [タイトルの大文字/小文字の区別]
      を選択します。
    3. アセットを保存します。
    4. アセットをサンプルデータでテストします。
  2. データプロファイリング
    で、次の手順を実行します。
    1. Customerテーブルでプロファイルを作成します。
    2. プロファイルにFN_SenCルールを追加し、ルールに対してFirstNameおよびLastNameカラムを選択します。
    3. プロファイルを保存して実行します。
    4. [結果]
      タブで結果を確認します。必要に応じて、結果をMicrosoft Excelファイルにエクスポートするか、コンテンツを区切りファイルに生成するクエリを実行して、さらに分析を行います。

ベリファイヤ

このアセットは、郵便アドレスデータの品質を測定して向上させるためのルールとして使用します。
[検証のみ]
モードの検証用アセットをプロファイルに追加できます。
例えば、マーケティング部門がカリフォルニア州の見込み顧客に新製品のパンフレットを送付する場合のデータアナリストのタスクについて考えてみます。パンフレットを送付する前に、Leadsテーブルの住所レコードが正確で配送可能かどうかを評価するとします。このタスクを完了するには、次の手順を実行します。
  1. Data Quality
    で、次の手順を実行します。
    1. Cal_addrという名前の検証用アセットを作成します。
    2. 入力住所構造の適切な住所モデルを選択し、入力フィールドと出力フィールドを指定します。
    3. [プロセス]タブのプロパティで、検証モードとして
      [検証のみ]
      を選択します。
    4. アセットを保存します。
  2. データプロファイリング
    で、次の手順を実行します。
    1. Leadsテーブルでプロファイルを作成します。
    2. プロファイルにCal_addrルールを追加し、ルールに対してAddress1およびAddress2カラムを選択します。
    3. プロファイルを保存して実行します。
    4. [結果]
      タブで結果を確認します。必要に応じて、結果をMicrosoft Excelファイルにエクスポートするか、コンテンツを区切りファイルに生成するクエリを実行して、さらに分析を行います。

解析

解析アセットを使用して、データの構造を改善します。解析アセットにより、入力フィールドの個別値を特定し、その値を適切な出力フィールドに書き込むことができる一連の操作が定義されます。
例えば、データアナリストとして電子メールアドレスのリストから潜在顧客に関する情報を見つける必要があるとします。データソースには、組織に問い合わせしてきた人々の電子メールが含まれています。新しい顧客を獲得できるように、その結果を営業部門と共有する必要があります。このタスクを完了するには、次の手順を実行します。
  1. Data Quality
    で、次の手順を実行します。
    1. Email_parseという名前の解析アセットを作成します。
    2. 解析ステップ
      [正規表現]
      を追加します。
    3. 組み込みの正規表現
      [電子メールの解析]
      を選択します。
    4. 出力フィールドとして
      [名前]
      [会社名]
      、および
      [ドメイン]
      を入力します。
    5. アセットを保存します。
  2. データプロファイリング
    で、次の手順を実行します。
    1. 顧客詳細テーブルにプロファイルを作成します。
    2. プロファイルに[Email_parse]ルールを追加し、ルールの[Email_ID]ソースカラムを選択します。
    3. プロファイルを保存して実行します。
    4. [結果]
      タブで結果を確認します。必要に応じて、結果をMicrosoft Excelファイルにエクスポートするか、コンテンツを区切りファイルに生成するクエリを実行して、さらに分析を行います。
ルール入力名またはルール出力名が4000バイトを超える場合は、ルールを追加できません。プロファイルに関連付けられている
Data Quality
アセットを開くと、
[アセット参照]
タブの
[次により使用]
セクションにプロファイル名が表示されます。
ルール仕様、クレンジング、検証用、または解析アセットの作成については、
Data Quality
ヘルプにある
Data Quality
の説明を参照してください。

マップレット

マップレットを使用してソースデータを変換します。パッシブなマップレットをルールとしてプロファイルに追加できます。マップレットは、ターゲットに読み込まれる前にソースデータを変換するために使用できるトランスフォーメーションロジックです。
例えば、データアナリストとして、Customerテーブルの顧客の姓と名を連結して、顧客のフルネームを取得したいとします。このタスクを完了するには、次の手順を実行します。
  1. データ統合
    で、次の手順を実行します。
    1. Concatenate_mappletという名前のマップレットアセットを作成します。
    2. マップレット入力としてFirstNameとLastNameを追加します。
    3. 式トランスフォーメーションをマップレットに追加します。
    4. マップレット出力としてFullNameを追加します。
    5. マップレットを検証して保存します。
  2. データプロファイリング
    で、次の手順を実行します。
    1. Customerテーブルでプロファイルを作成します。
    2. プロファイルにConcatenate_mappletルールを追加し、ルールに対してFirstNameおよびLastNameソースカラムを選択します。
    3. プロファイルを保存して実行します。
    4. [結果]
      タブで結果を確認します。必要に応じて、結果をMicrosoft Excelファイルにエクスポートするか、コンテンツを区切りファイルに生成するクエリを実行して、さらに分析を行います。
マップレットの作成については、
データ統合
Mappletsを参照してください。
  • アクティブなマップレットをプロファイルに追加することはできません。
  • マップレットは、ネイティブエンジンのプロファイルに対してのみ機能し、Sparkエンジンのプロファイルに対しては機能しません。
  • マップレットには次の3つのタイプがあります:
    データ統合
    、PowerCenter、およびSAP。
    データプロファイリング
    では、
    データ統合
    およびPowerCenterマップレットのみが使用できます。
  • パラメータをサポートするマップレット、またはルックアップに接続を必要とするマップレットは、
    データプロファイリング
    ではサポートされません。
  • マップレットでは次のアセットのリストを使用できます。
    • 解析
    • クレンジング
    • ラべラー
    • ルール仕様
    • ベリファイヤ
    • Java
    • ネストされたマップレット
  • データ統合
    には、マップレットで使用可能なその他のトランスフォーメーションがあります。ただし、これらのトランスフォーメーションによってマップレットがアクティブとなるため、
    データプロファイリング
    では使用されません。その他のトランスフォーメーションについては、
    データ統合
    Transformationsを参照してください。