Hi, I'm Ask INFA!
What would you like to know?
ASK INFAPreview
Please to access Ask INFA.

目次

Search

  1. はじめに
  2. トランスフォーメーション
  3. ソーストランスフォーメーション
  4. ターゲットトランスフォーメーション
  5. アクセスポリシートランスフォーメーション
  6. アグリゲータトランスフォーメーション
  7. B2Bトランスフォーメーション
  8. チャンキングトランスフォーメーション
  9. クレンジングトランスフォーメーション
  10. データマスキングトランスフォーメーション
  11. データサービストランスフォーメーション
  12. 重複排除トランスフォーメーション
  13. 式トランスフォーメーション
  14. フィルタトランスフォーメーション
  15. 階層ビルダートランスフォーメーション
  16. 階層パーサートランスフォーメーション
  17. 階層プロセッサトランスフォーメーション
  18. 入力トランスフォーメーション
  19. Javaトランスフォーメーション
  20. JavaトランスフォーメーションAPIリファレンス
  21. ジョイナトランスフォーメーション
  22. ラベラトランスフォーメーション
  23. ルックアップトランスフォーメーション
  24. 機械学習トランスフォーメーション
  25. マップレットトランスフォーメーション
  26. ノーマライザトランスフォーメーション
  27. 出力トランスフォーメーション
  28. 解析トランスフォーメーション
  29. Pythonトランスフォーメーション
  30. ランクトランスフォーメーション
  31. ルータトランスフォーメーション
  32. ルール仕様トランスフォーメーション
  33. シーケンストランスフォーメーション
  34. ソータートランスフォーメーション
  35. SQLトランスフォーメーション
  36. 構造パーサートランスフォーメーション
  37. トランザクション制御トランスフォーメーション
  38. 共有体トランスフォーメーション
  39. ベクトル埋め込みトランスフォーメーション
  40. Velocityトランスフォーメーション
  41. ベリファイヤトランスフォーメーション
  42. Webサービストランスフォーメーション

トランスフォーメーション

トランスフォーメーション

例: グループキーカラムの選択

例: グループキーカラムの選択

銀行で、重複した銀行口座所有者の検索を行おうとしているとします。銀行の顧客データセットには顧客の名前と住所のカラムが含まれており、銀行は重複排除アセットの目的として
[連絡先]
を選択しました。銀行は、入力レコードをグループに分類し、各グループに対して重複分析を実行することを決定しました。銀行は、グループを作成する重複排除トランスフォーメーション内のカラムを選択する必要があるとします。
次の表に、データセットの一部を示します。
顧客ID
住所1
City
状態
郵便番号
90999990
Armstrong
Al
6121 SUNSET BLVD.
LOS ANGELES
CA
90028
USA
90999907
Baldwin
Lynn
1600 EL CAMINO REAL, SUITE 1500
MENLO PARK
CA
94025
USA
90999917
Baldwyn
Linn
1600 EL CAMINO REAL, #1500
MENLO PK
CA
94025
USA
90999859
Belleperche
Carmen
9255 SUNSET BLVD.
LOS ANGELES
CA
90069
USA
90999876
Clark
Wick
777 S. FIGUEROA
LOS ANGELES
CA
90071
USA
90999859
Bachtin
Guy
30 S. WACKER
CHICAGO
IL
60606
USA
90999868
Dicintio
David
181 WEST MADISON ST
CHICAGO
IL
60602
USA
90999869
Ash
Pascal
335 WEST 16TH STREET
NEW YORK
NY
10011
USA
90999996
Bachtin
David
1633 BROADWAY
NEW YORK
NY
10022
USA
90999994
Carpenter
Brad
30 BROAD ST
NEW YORK
NY
42304
USA
90999820
Dedmond
David
ONE FINANCIAL SQUARE
NEW YORK
NY
10008
USA
90999902
Backwell
Chris
901 SE OAK, WILLAMETTE PLZ
PORTLAND
OR
97214
USA
90999897
Askerup
Nancy
400 MARKET STREET
HOUSTON
TX
77027
USA
90999904
Choy
Shelley
1177 WEST LOOP SOUTH
HOUSTON
TX
77027
USA
90999886
Cote
Lian
530 E. SWEDESFORD RD.
HOUSTON
TX
77027
USA
90999999
Croteau
Paul
3829-55 GASKINS ROAD
HOUSTON
TX
77027
USA
このシナリオでは、レコードを並べ替えるために最適なカラムとして[州]カラムを使用します。トランスフォーメーションで、GroupKeyフィールドとして
[州]
カラムを選択します。
GroupKeyフィールドとして[州]カラムを選択すると、重複排除操作により、各州に1つずつ、合計5つのグループが作成されます。銀行の顧客情報の中で、異なる州で同じ連絡先情報を持つ顧客がいる可能性は非常に低いと言えます。さらに、データには顧客IDカラムが含まれており、これによって重複排除プロセスの信頼性が高まります。
顧客IDカラムはプライマリキーフィールドであるため、グループ作成の候補としては適していません。GroupKeyフィールドとしてカラムを選択すると、重複排除操作により、すべての一意のIDに対してグループが作成され、これによりすべてのレコードに対してグループが作成されます。
同様に、[国]カラムについてもすべての行に同じ値が含まれているため、グループ作成の候補としては適していません。GroupKeyフィールドとして[国]カラムを選択すると、重複排除操作によりすべてのレコードが同じグループに追加されます。銀行の顧客情報の中には、同じ名前の個別の顧客が全国に2人以上いる可能性があるため、そうした顧客のエントリが重複しないようにしたいと思います。