目次

Search

  1. はじめに
  2. トランスフォーメーション
  3. ソーストランスフォーメーション
  4. ターゲットトランスフォーメーション
  5. アクセスポリシートランスフォーメーション
  6. B2B Data Transformation
  7. アグリゲータトランスフォーメーション
  8. クレンジングトランスフォーメーション
  9. データマスキングトランスフォーメーション
  10. データサービストランスフォーメーション
  11. 重複排除トランスフォーメーション
  12. 式トランスフォーメーション
  13. フィルタトランスフォーメーション
  14. 階層ビルダートランスフォーメーション
  15. 階層パーサートランスフォーメーション
  16. 階層プロセッサトランスフォーメーション
  17. 入力トランスフォーメーション
  18. Javaトランスフォーメーション
  19. JavaトランスフォーメーションAPIリファレンス
  20. ジョイナトランスフォーメーション
  21. ラベラトランスフォーメーション
  22. ルックアップトランスフォーメーション
  23. 機械学習トランスフォーメーション
  24. マップレットトランスフォーメーション
  25. ノーマライザトランスフォーメーション
  26. 出力トランスフォーメーション
  27. 解析トランスフォーメーション
  28. Pythonトランスフォーメーション
  29. ランクトランスフォーメーション
  30. ルータトランスフォーメーション
  31. ルール仕様トランスフォーメーション
  32. シーケンスジェネレータトランスフォーメーション
  33. ソータートランスフォーメーション
  34. SQLトランスフォーメーション
  35. 構造パーサートランスフォーメーション
  36. トランザクション制御トランスフォーメーション
  37. 共有体トランスフォーメーション
  38. Velocityトランスフォーメーション
  39. ベリファイヤトランスフォーメーション
  40. Webサービストランスフォーメーション

トランスフォーメーション

トランスフォーメーション

重複排除および統合操作

重複排除および統合操作

重複排除トランスフォーメーションを含むマッピングを実行すると、トランスフォーメーションによって各入力レコードのIDデータが分析されます。トランスフォーメーションは、入力レコード間の類似度を表す一連のパーセンテージスコアを生成します。複数のレコードが指定されたしきい値を超えるスコアで相互に一致する場合、レコードは重複と見なされます。
トランスフォーメーションに追加する重複排除アセットは、重複レコードが満たす必要があるしきい値スコアなど、重複排除操作の比較条件を指定します。
統合は、重複排除アセットがトランスフォーメーションに対して指定できるオプションのプロセスです。統合時に、トランスフォーメーションは重複排除プロセスで特定された一致レコードのセットを評価します。トランスフォーメーションは、各セットでレコードの優先バージョンを選択または作成します。
重複排除および統合プロセスは、
Data Quality
ユーザーが重複排除アセットで設定します。アセットで定義された条件の詳細については、
Data Quality
ユーザーにお問い合わせください。

重複排除および統合のルールとガイドライン

マッピングに重複排除トランスフォーメーションを追加する場合は、以下のルールとガイドラインを考慮してください。
ID分析のためのフィールドのマッピング
トランスフォーメーションに追加する重複排除アセットは、個人名や組織名などのIDのタイプを指定します。アセットは、IDタイプを重複排除操作の
目的
と見なします。アセットにおけるIDのタイプは、トランスフォーメーションが入力フィールドで検索すると想定される情報のタイプを定義します。
トランスフォーメーションの適切な入力フィールドを、トランスフォーメーションが示すターゲットフィールドにマッピングする必要があります。必要に応じて、オプションの入力フィールドを他のフィールドにマッピングすることもできます。
スコアとしきい値
重複排除トランスフォーメーションは、入力データでペアになる可能性のある各レコードのスコアを計算します。トランスフォーメーションは、一致する重複レコードの各セット内のレコードのスコアを返します。同じセットに属さないレコードのスコアは返しません。
トランスフォーメーションは、一致セット内のレコード間のリレーションをリンクスコアおよびドライバスコアとして表します。
SequenceIdフィールドとGroupKeyフィールド
[フィールドマッピング]
タブでは、トランスフォーメーションによって、アセットで指定されたフィールドにGroupKeyフィールドとSequenceIdフィールドが追加されます。GroupKeyフィールドは必須です。SequenceIdフィールドは詳細モードでは必須です。
グループキーは、トランスフォーメーションで入力レコードをサブセットにソートし、各サブセットに対して個別の重複分析を実行できるようにするデータ値です。適切なグループキーを選択すると、マッピング結果の品質を低下させずに、マッピングの実行にかかる時間を短縮できます。グループの詳細については、重複分析におけるグループを参照してください。
シーケンスID値は、トランスフォーメーションで入力レコードを読み取る順序を決定します。SequenceIdフィールドへデータを提供できるフィールドが入力レコードに含まれていない場合、トランスフォーメーションではレコードが入力データセットに出現する順序で読み取られます。
メタデータフィールド
[出力フィールド]
タブでは、トランスフォーメーションにより、一致レコードのペアのスコア値を表示するフィールドが追加されます。このフィールドは、各レコードが属する一致レコードのセットも識別します。重複排除アセットで統合プロセスが指定されている場合、メタデータフィールドは各レコードセットの優先レコードを指定します。トランスフォーメーションは、優先レコードを
存続
レコードと見なします。
このフィールドを使用してマッピング結果を把握します。