目次

Search

  1. はじめに
  2. トランスフォーメーション
  3. ソーストランスフォーメーション
  4. ターゲットトランスフォーメーション
  5. アクセスポリシートランスフォーメーション
  6. B2B Data Transformation
  7. アグリゲータトランスフォーメーション
  8. クレンジングトランスフォーメーション
  9. データマスキングトランスフォーメーション
  10. データサービストランスフォーメーション
  11. 重複排除トランスフォーメーション
  12. 式トランスフォーメーション
  13. フィルタトランスフォーメーション
  14. 階層ビルダートランスフォーメーション
  15. 階層パーサートランスフォーメーション
  16. 階層プロセッサトランスフォーメーション
  17. 入力トランスフォーメーション
  18. Javaトランスフォーメーション
  19. JavaトランスフォーメーションAPIリファレンス
  20. ジョイナトランスフォーメーション
  21. ラベラトランスフォーメーション
  22. ルックアップトランスフォーメーション
  23. 機械学習トランスフォーメーション
  24. マップレットトランスフォーメーション
  25. ノーマライザトランスフォーメーション
  26. 出力トランスフォーメーション
  27. 解析トランスフォーメーション
  28. Pythonトランスフォーメーション
  29. ランクトランスフォーメーション
  30. ルータトランスフォーメーション
  31. ルール仕様トランスフォーメーション
  32. シーケンスジェネレータトランスフォーメーション
  33. ソータートランスフォーメーション
  34. SQLトランスフォーメーション
  35. 構造パーサートランスフォーメーション
  36. トランザクション制御トランスフォーメーション
  37. 共有体トランスフォーメーション
  38. Velocityトランスフォーメーション
  39. ベリファイヤトランスフォーメーション
  40. Webサービストランスフォーメーション

トランスフォーメーション

トランスフォーメーション

重複排除トランスフォーメーションのメタデータフィールド

重複排除トランスフォーメーションのメタデータフィールド

重複排除トランスフォーメーションには、重複排除および統合プロセスのメタデータを示す一連の定義済みのフィールドが含まれています。トランスフォーメーションはデフォルトでフィールドを作成し、マッピングの実行時にフィールドにデータを取り込みます。

[フィールドマッピング]タブのメタデータフィールド

[フィールドマッピング]タブの
[ターゲットフィールド]
リストには、次のメタデータフィールドがあります。
GroupKey
重複分析のためにトランスフォーメーションで入力レコードをグループにソートするために使用するデータ値が含まれます。
SequenceId
トランスフォーメーションに入力される各レコードの一意の識別子が含まれます。
トランスフォーメーションは、シーケンスID値を使用してOut_DriverIdおよびOut_LinkIdデータ内のレコードを識別します。SequenceIdフィールドをマッピングしていない場合、トランスフォーメーションはOutRowIdフィールドの値をレコードの一意の識別子として使用します。

[出力フィールド]タブのメタデータフィールド

[出力フィールド]タブには、次のメタデータフィールドがあります。
Out_ClusterId
各レコードが属するクラスタの識別子が含まれます。
重複排除プロセスにおけるクラスタとは、データ値が重複しきい値を超える程度に相互に一致しているレコードのセットです。同一セット内のレコードは、同じIDを識別する可能性が高くなります。一意のレコードはそのレコード自体と完全に一致するため、1つのセットに1つのレコードのみが含まれる場合があります。
Out_ClusterSize
現在のレコードが属するセット内のレコード数が含まれます。セットに一意のレコードが含まれている場合、クラスタサイズは1です。
Out_DriverId
各一致レコードセット内のドライバレコードの識別子が含まれます。ドライバレコードは、SequenceId入力フィールドに対してセット内で値が最小のレコードです。トランスフォーメーションでSequenceIdフィールドが使用されない場合、ドライバレコードは、一致セット内でOut_RowId値が最小のレコードです。
Out_DriverScore
一致レコードセット内の現在のレコードとドライバレコードとの間の類似度を表すスコアが含まれます。
Out_IsSurvivor
統合プロセスで指定された優先レコードの識別子が含まれます。
Out_LinkId
現在のレコードと一致し、それを一致レコードセットにリンクしたレコードの識別子が含まれます。
Out_LinkScore
2つのレコード間のスコアが含まれます。このスコアにより、レコードが一致レコードセットに追加されます。Out_LinkIdフィールドは、リンクスコアが現在のレコードと同じレコードを特定します。
Out_RowId
マッピングソースのデータセット内の各レコードに対する一意の識別子が含まれます。
一意の識別子のフィールドをSequenceIdフィールドにマッピングしていない場合、トランスフォーメーションはOut_RowId値を使用してレコードを識別します。

メタデータフィールドの選択

メタデータフィールドを使用すると、重複レコード間のリレーションに関する重要な情報が得られます。例えば、メタデータには、2つのレコード間の類似度を数値で表すOut_LinkScoreフィールドがあります。Out_LinkScoreフィールドを選択する場合は、Out_LinkIdフィールドも選択します。Out_LinkIdフィールドは、Out_LinkScore値が示すレコードのペア内の他方のレコードを特定します。
Out_DriverId値は、一致レコードセット内のすべてのレコードのベンチマークを示します。Out_DriverId値は、現在のレコードと、セット内でシーケンスIDまたは行IDの値が最小のレコードとの間のスコアです。IDが最小のレコードは、重複排除プロセスでセットに最初に追加されたレコードでもあります。