Resumen de la transformación de excepción de registros duplicados
Resumen de la transformación de excepción de registros duplicados
La transformación de excepción de registros duplicados es una transformación activa que lee la salida de un proceso de calidad de datos e identifica registros duplicados que requieren la revisión manual. La transformación de excepción de registros duplicados es una transformación de varios grupos.
La transformación de excepción de registros duplicados recibe la entrada de otra transformación o de un objeto de datos en otra asignación. La entrada a la transformación de excepción debe contener un valor numérico de puntuación de coincidencia que la transformación pueda utilizar para determinar si el registro es un duplicado. Establezca un umbral de puntuación de coincidencia superior e inferior en la transformación de excepción de registros duplicados.
La transformación de excepción de registros duplicados realiza una de las siguientes acciones:
Si la puntuación de coincidencia es mayor o igual al umbral superior, la transformación trata el registro como un duplicado y lo escribe en un destino de base de datos.
Si la puntuación de coincidencia es menor que el umbral superior y mayor que el umbral inferior de la transformación trata el registro como un posible duplicado y lo escribe en el registro en un destino diferente para la revisión manual. Si el registro pertenece a un clúster, la transformación escribe todos los registros del clúster en el destino.
Cuando un clúster tiene una puntuación de coincidencia menor que el umbral inferior, todos los registros del clúster van al grupo de salida de registros únicos. Los clústeres de tamaño 1 se distribuyen al grupo único, independientemente de la puntuación de coincidencia. De forma predeterminada, la transformación de excepción no escribe registros únicos en un destino. Puede configurar la transformación para devolver los registros únicos.
Si una puntuación de coincidencia de un clúster no está en el intervalo de 0 - 100, la transformación de excepción ignora todas las filas del clúster. El Servicio de integración de datos registra un mensaje que incluye el clusterID.