Forma especializada de estandarización de datos que se realiza antes de hacer comparaciones de coincidencia. Para los tipos de coincidencia más básicos, al tokenizar se quitarán caracteres innecesarios, como espacios y puntuación. Los tipos de coincidencia más complejos dan como resultado la generación de códigos de coincidencia sofisticados: cadenas de caracteres que representan el contenido de los datos que se comparan según el grado de similitud necesario.