目次

Search

  1. はじめに
  2. トランスフォーメーション
  3. ソーストランスフォーメーション
  4. ターゲットトランスフォーメーション
  5. アクセスポリシートランスフォーメーション
  6. B2B Data Transformation
  7. アグリゲータトランスフォーメーション
  8. クレンジングトランスフォーメーション
  9. データマスキングトランスフォーメーション
  10. データサービストランスフォーメーション
  11. 重複排除トランスフォーメーション
  12. 式トランスフォーメーション
  13. フィルタトランスフォーメーション
  14. 階層ビルダートランスフォーメーション
  15. 階層パーサートランスフォーメーション
  16. 階層プロセッサトランスフォーメーション
  17. 入力トランスフォーメーション
  18. Javaトランスフォーメーション
  19. JavaトランスフォーメーションAPIリファレンス
  20. ジョイナトランスフォーメーション
  21. ラベラトランスフォーメーション
  22. ルックアップトランスフォーメーション
  23. 機械学習トランスフォーメーション
  24. マップレットトランスフォーメーション
  25. ノーマライザトランスフォーメーション
  26. 出力トランスフォーメーション
  27. 解析トランスフォーメーション
  28. Pythonトランスフォーメーション
  29. ランクトランスフォーメーション
  30. ルータトランスフォーメーション
  31. ルール仕様トランスフォーメーション
  32. シーケンスジェネレータトランスフォーメーション
  33. ソータートランスフォーメーション
  34. SQLトランスフォーメーション
  35. 構造パーサートランスフォーメーション
  36. トランザクション制御トランスフォーメーション
  37. 共有体トランスフォーメーション
  38. Velocityトランスフォーメーション
  39. ベリファイヤトランスフォーメーション
  40. Webサービストランスフォーメーション

トランスフォーメーション

トランスフォーメーション

重複分析におけるグループ

重複分析におけるグループ

重複分析マッピングでは、重複排除トランスフォーメーションが実行する必要のあるデータ比較の回数が多数に及ぶため、時間がかかることがあります。比較の回数は、選択したフィールドのデータ値の数に関係しています。
次の表は、マッピングが1つのフィールドに対して実行する計算の回数を示しています。
データ値の数
比較回数
10,000
5000万
10万
50億
100万
5000億
マッピングの実行にかかる時間を短縮するには、入力レコードを
[グループ]
に割り当てるように重複排除トランスフォーメーションを構成します。
グループとは、指定したフィールド上の、同一の値を含む一連のレコードです。グループ化されたデータに対して重複分析を実行すると、重複排除トランスフォーメーションは各グループ内のレコードのみを分析し、各グループからの結果を単一の出力データセットに結合します。データをグループ化するフィールドは、
GroupKey
フィールドです。適切なグループキーを選択すると、マッピング分析の精度を大きく損なうことなく、重複排除トランスフォーメーションで実行する必要がある比較の総数を減らすことができます。重複排除トランスフォーメーションでGroupKeyフィールドを選択します。
次の表は、10個のグループに分類するマッピングが1つのフィールドに対して実行する計算の回数を示しています。
データ値の数
グループの数
グループサイズ
比較総数(全グループ)
10,000
10
1,000
500万
10万
10
10,000
5億
100万
10
10万
500億
データをグループにまとめるときは、以下のルールとガイドラインを考慮してください。
  • GroupKeyフィールドには、さまざまな同一の値(住所データセットの市区町村名や都道府県名など)が含まれている必要があります。
  • 重複分析に関連する情報を含むグループキーを選択しないでください。例えば、インデックスキーフィールドをGroupKeyフィールドとして選択しないでください。グループ作成の目的は、重複する性質があって、それが分析の目的には関係しない値に従ってデータを整理することです。
  • グループキーを選択するときは、入力データに対して有効なサイズのグループをトランスフォーメーションで作成できるかどうかを考慮してください。グループサイズが小さすぎると、照合分析でデータセットの中の一部の重複レコードが検索されないことがあります。グループサイズが大きすぎると、照合分析で偽の重複が返されることがあります。
  • データにグループキーに適したフィールドが含まれていない場合は、必要なグループサイズにレコードを分類するためにトランスフォーメーションが使用できるデータカラムを作成してください。例えば、100万件のレコードを含むデータセットの場合、1から50までの一連の値を繰り返すカラムを作成するとします。各グループのレコードはデータセット内に均等に分散され、グループ化されたデータに対して重複分析を続行できるようになります。
  • レコードがグループに分類されないようにする場合は、すべてのレコードに同じ値が含まれるGroupKeyフィールドを指定します。適切なフィールドがない場合は、フィールドを作成します。例えば、すべての値が
    Group1
    であるデータカラムを作成し、そのカラムを[GroupKey]フィールドとして選択します。マッピングを実行すると、重複排除トランスフォーメーションによってGroupKeyフィールドの値ごとにレコードが分類され、すべてのレコードが同じグループに割り当てられます。
  • グループ化により、マッピングデータセット内のレコードの順序が変更されることはありません。