目录

Search

  1. 前言
  2. 转换简介
  3. 转换端口
  4. 转换缓存
  5. 地址验证器转换
  6. 汇总器转换
  7. 关联转换
  8. 离散记录异常转换
  9. 大小写转换器转换
  10. 分类器转换
  11. 比较转换
  12. 合并转换
  13. 数据屏蔽转换
  14. 数据处理器转换
  15. 判定转换
  16. 重复记录异常转换
  17. 表达式转换
  18. 筛选器转换
  19. 层次结构到关系转换
  20. Java 转换
  21. Java 转换 API 引用
  22. Java 表达式
  23. 联接器转换
  24. 键生成器转换
  25. 标签创建器转换
  26. 查找转换
  27. 查找缓存
  28. 动态查找缓存
  29. 匹配转换
  30. 字段分析中的匹配转换
  31. 标识分析中的匹配转换
  32. 合并转换
  33. 规范器转换
  34. 解析器转换
  35. Python 转换
  36. 等级转换
  37. 读取转换
  38. 关系到层次结构转换
  39. REST Web 服务使用者转换
  40. 路由器转换
  41. 序列生成器转换
  42. 排序器转换
  43. SQL 转换
  44. 标准创建器转换
  45. 联合转换
  46. 更新策略转换
  47. Web 服务使用者转换
  48. 解析 Web 服务 SOAP 消息
  49. 生成 Web 服务 SOAP 消息
  50. 加权平均值转换
  51. 写入转换
  52. 转换分隔符

Developer 转换指南

Developer 转换指南

群集分析中的驱动程序得分和链接得分

群集分析中的驱动程序得分和链接得分

如果在匹配转换中选择了群集输出选项,则可以在输出中添加链接得分和驱动程序得分数据。
链接得分是指可指示两个记录是同一群集中成员的两个记录之间的得分。 记录之间的链接将确定群集的组成。 任何记录都可以链接到同一群集中的其他任何记录。
驱动程序得分是指群集中具有最高序列 ID 值的记录与同一群集中另一个记录之间的得分。 驱动程序得分提供了访问群集中所有记录(而非单个记录)的方法。 如果在匹配输出中添加驱动程序得分,映射运行速度将减慢,因为匹配转换必须在所有群集完成后才能计算驱动程序得分。
匹配分析将针对您定义的每个策略生成一组得分。 驱动程序得分和链接得分指示每个群集中不同记录对的匹配得分。 驱动程序得分和链接得分可能会依赖于记录进入转换的顺序。 驱动程序得分可能低于匹配阈值。

群集分析示例

配置字段匹配策略以分析姓氏数据列。 在策略中设置
0.825
的匹配阈值。 选择一种群集输出格式,运行转换上的数据查看器。
下表显示了数据查看器所显示的数据:
姓氏
序列 ID
群集 ID
群集大小
驱动程序 ID
驱动程序得分
链接 ID
链接得分
SMITH
1
1
2
1 - 6
1
1 - 1
1
SMYTH
2
2
2
1 - 3
0.83333
1 - 2
1
SMYTHE
3
2
2
1 - 3
1
1 - 2
0.83333
SMITT
4
3
1
1 - 4
1
1 - 4
1
SMITS
5
4
1
1 - 5
1
1 - 5
1
SMITH
6
1
2
1 - 6
1
1 - 1
1
数据查看器包含以下关于姓氏数据的信息:
  • SMITT 和 SMITS 不匹配任何得分符合匹配阈值的记录。 匹配转换将确定记录在数据集中是唯一的。
    SMITT 和 SMITS 的群集大小为 1。 要找到群集输出中的唯一记录,请搜索包含单个记录的群集。
  • SMITH 和 SMITH 的链接得分是 1。 匹配转换将确定记录是完全相同的。 转换将记录添加到单个群集。
  • SMYTH 和 SMYTHE 的链接得分是 0.83333。得分超出匹配阈值。 因此,转换将记录添加到单个群集。