Você pode usar uma transformação de Exceção de Registro Duplicado para identificar os clusters de duplicação de dados que precisam de revisão manual. As pontuações de correspondência de registros em clusters determinam as duplicações em potencial. Você pode configurar limites superiores e inferiores para pontuações de correspondência na transformação. Os limites superior e inferior definem o grau de similaridade.
Um cluster contém registros relacionados que uma operação de correspondência agrupa. A transformação de Correspondência cria clusters usando a operação de análise de duplicação e a operação de resolução de identidade. Cada registro em um cluster tem o mesmo ID de cluster. Quando a pontuação de correspondência mais baixa em um cluster estiver entre os limites superior e inferior, a transformação de Exceção de Registro Duplicado identificará o cluster como um cluster de Exceção de Registro Duplicado. A transformação de Correspondência adiciona uma coluna de valor de ID de cluster a todos os registros. Os registros duplicados recebem o mesmo ID de cluster.
A pontuação mais baixa do registro em um cluster determina o tipo de cluster. Um cluster pode ter 11 registros com uma pontuação de correspondência de 0,95 e um registro com a pontuação de correspondência de 0,79. Se o limite superior for 0,9 e o limite inferior for 0,8, a transformação de Exceção gravará os registros na tabela de registros exclusivos.