目录

Search

  1. 前言
  2. 转换简介
  3. 转换端口
  4. 转换缓存
  5. 地址验证器转换
  6. 汇总器转换
  7. 关联转换
  8. 离散记录异常转换
  9. 大小写转换器转换
  10. 分类器转换
  11. 比较转换
  12. 合并转换
  13. 数据屏蔽转换
  14. 数据处理器转换
  15. 判定转换
  16. 重复记录异常转换
  17. 表达式转换
  18. 筛选器转换
  19. 层次结构到关系转换
  20. Java 转换
  21. Java 转换 API 引用
  22. Java 表达式
  23. 联接器转换
  24. 键生成器转换
  25. 标签创建器转换
  26. 查找转换
  27. 查找缓存
  28. 动态查找缓存
  29. 宏转换
  30. 匹配转换
  31. 字段分析中的匹配转换
  32. 标识分析中的匹配转换
  33. 规范器转换
  34. 合并转换
  35. 解析器转换
  36. Python 转换
  37. 等级转换
  38. 读取转换
  39. 关系到层次结构转换
  40. REST Web 服务使用者转换
  41. 路由器转换
  42. 序列生成器转换
  43. 排序器转换
  44. SQL 转换
  45. 标准创建器转换
  46. 联合转换
  47. 更新策略转换
  48. Web 服务使用者转换
  49. 解析 Web 服务 SOAP 消息
  50. 生成 Web 服务 SOAP 消息
  51. 加权平均值转换
  52. 窗口转换
  53. 写入转换
  54. 附录 , A: 转换分隔符

Developer 转换指南

Developer 转换指南

重复记录异常

重复记录异常

可以使用重复记录异常转换标识需要手动查看的重复数据的群集。 群集中的记录匹配得分确定潜在重复项。 可以配置转换中匹配得分的阈值上界和下界。 阈值上界和下界定义相似度。
群集包含匹配操作分组在一起的相关记录。 匹配转换使用重复项分析操作和身份识别操作创建群集。 群集中的每个记录具有相同的群集 ID。 当群集中最低匹配得分介于阈值上界和下界之间时,重复记录异常转换会将群集标识为重复记录异常群集。 匹配转换将群集 ID 值列添加到所有记录。 重复记录收到相同的群集 ID。
群集中得分最低的记录确定了群集类型。 群集中可能有 11 个记录匹配得分为 0.95 ,1 个记录匹配得分为 0.79。如果阈值上界为 0.9,阈值下界为 0.8,则异常转换会将记录写入唯一记录表。