Hi, I'm Ask INFA!
What would you like to know?
ASK INFAPreview
Please to access Ask INFA.

目次

Search

  1. はじめに
  2. トランスフォーメーション
  3. ソーストランスフォーメーション
  4. ターゲットトランスフォーメーション
  5. アクセスポリシートランスフォーメーション
  6. アグリゲータトランスフォーメーション
  7. B2Bトランスフォーメーション
  8. チャンキングトランスフォーメーション
  9. クレンジングトランスフォーメーション
  10. データマスキングトランスフォーメーション
  11. データサービストランスフォーメーション
  12. 重複排除トランスフォーメーション
  13. 式トランスフォーメーション
  14. フィルタトランスフォーメーション
  15. 階層ビルダートランスフォーメーション
  16. 階層パーサートランスフォーメーション
  17. 階層プロセッサトランスフォーメーション
  18. 入力トランスフォーメーション
  19. Javaトランスフォーメーション
  20. JavaトランスフォーメーションAPIリファレンス
  21. ジョイナトランスフォーメーション
  22. ラベラトランスフォーメーション
  23. ルックアップトランスフォーメーション
  24. 機械学習トランスフォーメーション
  25. マップレットトランスフォーメーション
  26. ノーマライザトランスフォーメーション
  27. 出力トランスフォーメーション
  28. 解析トランスフォーメーション
  29. Pythonトランスフォーメーション
  30. ランクトランスフォーメーション
  31. ルータトランスフォーメーション
  32. ルール仕様トランスフォーメーション
  33. シーケンストランスフォーメーション
  34. ソータートランスフォーメーション
  35. SQLトランスフォーメーション
  36. 構造パーサートランスフォーメーション
  37. トランザクション制御トランスフォーメーション
  38. 共有体トランスフォーメーション
  39. ベクトル埋め込みトランスフォーメーション
  40. Velocityトランスフォーメーション
  41. ベリファイヤトランスフォーメーション
  42. Webサービストランスフォーメーション

トランスフォーメーション

トランスフォーメーション

リンクスコアとドライバスコア

リンクスコアとドライバスコア

重複排除プロセスは、重複排除トランスフォーメーションの出力にリンクスコアとドライバスコアのデータを追加します。これらのデータを使用すると、重複レコード間のリレーションをより詳しく理解することができます。
リンクスコアとは、同一一致セットのメンバとして識別する2つのレコード間のスコアです。このスコアは、あるレコードと、しきい値を超えるスコアを持つ一致した最初のレコードとの間のリンクを表します。リンクIDにより、リンクスコアが適用されるレコードが識別されます。
リンクスコアとリンクIDの値は、レコードのペアが入力データ内で最も一致することを示すものではありません。リンクスコアとリンクIDの値は、一致レコードセットの構成を説明するためのものです。
ドライバスコアとは、一致レコードセットに最初に追加されたレコードと、同一セット内の別のレコードとの間のスコアです。トランスフォーメーションは、シーケンスIDまたは行IDの値を使用してセット内の最初のレコードを識別します。ドライバスコアは、セット内のすべてのレコードを単一のレコードに照らして評価する手段の1つです。
重複分析では、入力レコードの単一のスコアセットが生成されます。ドライバスコアとリンクスコアは、レコード間の異なるリレーションを表すもので、異なるタイプの重複分析を示すものではありません。ドライバスコアとリンクスコアの割り当ては、レコードがトランスフォーメーションに入る順序に依存する可能性があります。特定のレコードのペアのドライバスコアがしきい値を下回る可能性があります。

リンクスコアとドライバスコアの例

重複排除トランスフォーメーションで名字データのカラムを含むレコードを分析します。重複排除アセットで、重複レコードのしきい値を
0.825
と定義します。
次の表に、トランスフォーメーションから返される可能性のある結果を示します。
名字
シーケンスID
ClusterId
ClusterSize
DriverId
DriverScore
LinkId
LinkScore
SMITH
1
1
2
1 - 6
1
1 - 1
1
SMYTH
2
2
2
1 - 3
0.83333
1 - 2
1
SMYTHE
3
2
2
1 - 3
1
1 - 2
0.83333
SMITT
4
3
1
1 - 4
1
1 - 4
1
SMITS
5
4
1
1 - 5
1
1 - 5
1
SMITH
6
1
2
1 - 6
1
1 - 1
1
結果から、名字データに関する次の情報が得られます。
  • SMITTとSMITSは、他のどのレコードにも一致しません(スコアがしきい値を満足しない)。トランスフォーメーションが、レコードがデータセット内で一意であると判定します。このトランスフォーメーションでは、それぞれのレコードがそれ自体で一意に一致するため、レコードにスコア値1を割り当てることができます。
    SMITTとSMITSのClusterSize値が1であることから、それぞれが各セット内で唯一のレコードであることがわかります。出力内で一意のレコードを見つけるには、含まれるレコードが1つだけの一致レコードセットを検索します。
  • SMITHとSMITHは、リンクスコアが1です。トランスフォーメーションがレコード同士が同一であると判定します。このトランスフォーメーションにより、レコードが単一の一致レコードセットに追加されます。ClusterId値は、これらのレコードが同じセットに属することを示しています。
  • SMYTHとSMYTHEは、スコア0.83333で一致します。スコアが重複しきい値を超えています。したがって、このトランスフォーメーションにより、レコードが単一の一致レコードセットに追加されます。