目次

Search

  1. はじめに
  2. トランスフォーメーションについて
  3. トランスフォーメーションポート
  4. トランスフォーメーションキャッシュ
  5. アドレスバリデータトランスフォーメーション
  6. アグリゲータトランスフォーメーション
  7. 関連付けトランスフォーメーション
  8. 不良レコードの例外トランスフォーメーション
  9. 大文字小文字変換プログラムトランスフォーメーション
  10. 分類子トランスフォーメーション
  11. 比較トランスフォーメーション
  12. 統合トランスフォーメーション
  13. データマスキングトランスフォーメーション
  14. データプロセッサトランスフォーメーション
  15. ディシジョントランスフォーメーション
  16. 重複レコードの例外トランスフォーメーション
  17. 式トランスフォーメーション
  18. フィルタトランスフォーメーション
  19. 階層型からリレーショナルへのトランスフォーメーション
  20. Javaトランスフォーメーション
  21. JavaトランスフォーメーションAPIのリファレンス
  22. Java式
  23. ジョイナトランスフォーメーション
  24. キージェネレータトランスフォーメーション
  25. ラベラトランスフォーメーション
  26. ルックアップトランスフォーメーション
  27. ルックアップキャッシュ
  28. 動的ルックアップキャッシュ
  29. マクロトランスフォーメーション
  30. 一致トランスフォーメーション
  31. フィールド分析での一致トランスフォーメーション
  32. ID分析での一致トランスフォーメーション
  33. ノーマライザトランスフォーメーション
  34. マージトランスフォーメーション
  35. パーサートランスフォーメーション
  36. Pythonトランスフォーメーション
  37. ランクトランスフォーメーション
  38. 読み取りトランスフォーメーション
  39. リレーショナルから階層型へのトランスフォーメーション
  40. REST Webサービスコンシューマトランスフォーメーション
  41. ルータトランスフォーメーション
  42. シーケンスジェネレータトランスフォーメーション
  43. ソータートランスフォーメーション
  44. SQLトランスフォーメーション
  45. 標準化トランスフォーメーション
  46. 共有体トランスフォーメーション
  47. アップデートストラテジトランスフォーメーション
  48. Webサービスコンシューマトランスフォーメーション
  49. WebサービスSOAPメッセージの解析
  50. WebサービスSOAPメッセージの生成
  51. 加重平均トランスフォーメーション
  52. ウィンドウトランスフォーメーション
  53. 書き込みトランスフォーメーション
  54. 付録 A: トランスフォーメーションの区切り文字

Developer Transformation Guide

Developer Transformation Guide

クラスタ分析でのドライバスコアとリンクスコア

クラスタ分析でのドライバスコアとリンクスコア

一致トランスフォーメーションでクラスタ出力のオプションを選択すると、リンクスコアとドライバスコアのデータを出力に追加することができます。
リンクスコアとは、レコードが同一クラスタのメンバであることを識別するための、2つのレコード間のスコアです。レコード間のリンクによってクラスタの構成が決まります。どのレコードでも、同一クラスタ内の任意のレコードにリンクすることができます。
ドライバスコアとは、クラスタ内でシーケンスIDの値が最高のレコードと、同じクラスタ内の他のレコードとの間のスコアです。ドライバスコアは、クラスタ内のすべてのレコードを単一のレコードに照らして評価する手段の1つです。ドライバスコアを照合出力に追加すると、すべてのクラスタが完了するまで一致トランスフォーメーションがドライバスコアを計算できないため、マッピングの実行速度が遅くなります。
照合分析は、定義したストラテジごとにスコアを1セット生成します。ドライバスコアとリンクスコアは、各クラスタ内のさまざまなレコードペアのマッチ率を示します。リンクスコアとドライバスコアは、レコードがトランスフォーメーションに入る順序に依存する可能性があります。ドライバスコアが一致しきい値より低くなる場合もあります。

クラスタ分析の例

名字データのカラムを分析するためにフィールド一致ストラテジを設定することにします。そこで、一致しきい値として
0.825
をストラテジに設定します。クラスタ化した出力形式を選択し、トランスフォーメーションでデータビューアを実行します。
データビューアに表示されるデータを下表に示します。
名字
シーケンスID
クラスタID
クラスタサイズ
ドライバID
ドライバスコア
リンクID
リンクスコア
SMITH
1
1
2
1 - 6
1
1 - 1
1
SMYTH
2
2
2
1 - 3
0.83333
1 - 2
1
SMYTHE
3
2
2
1 - 3
1
1 - 2
0.83333
SMITT
4
3
1
1 - 4
1
1 - 4
1
SMITS
5
4
1
1 - 5
1
1 - 5
1
SMITH
6
1
2
1 - 6
1
1 - 1
1
データビューアには、名字データに関して次の情報が含まれています。
  • SMITTとSMITSは、どのレコードにも一致しません(スコアが一致しきい値を満足しない)。一致トランスフォーメーションが、レコードがデータセット内で一意であると判定します。
    SMITTとSMITSは、クラスタサイズが1です。クラスタ出力内で一意のレコードを見つけるには、含まれるレコードが1つだけのクラスタを検索します。
  • SMITHとSMITHは、リンクスコアが1です。一致トランスフォーメーションがレコード同士が同一であると判定します。トランスフォーメーションにより、レコードが単一のクラスタに追加されます。
  • SMYTHとSMYTHEは、リンクスコアが0.83333です。スコアが一致しきい値を超えています。したがって、このトランスフォーメーションにより、レコードが単一のクラスタに追加されます。