Utilice el algoritmo Bigram para comparar cadenas de texto largas, como las direcciones postales introducidas en un único campo.
El algoritmo Bigram calcula una puntuación de coincidencia para dos cadenas de datos según la ocurrencia de caracteres consecutivos en ambas cadenas. El algoritmo busca pares de caracteres consecutivos que sean comunes en ambas cadenas. Divide el número de pares que coincide en ambas cadenas por el número total de pares de caracteres.
Ejemplo de Bigram
Considere las siguientes cadenas:
larder
lerder
Estas cadenas producen los siguientes grupos Bigram:
l a, a r, r d, d e, e r
l e, e r, r d, d e, e r
Observe que la segunda ocurrencia de la cadena "
e r
" dentro de la cadena "
lerder
" no tiene coincidencia, puesto que no hay una segunda ocurrencia correspondiente de "
e r
" en la cadena "
larder
".
Para calcular la puntuación de coincidencia Bigram, la transformación divide el número de pares coincidentes (6) por el número total de pares en ambas cadenas (10). En este ejemplo, las cadenas son similares en un 60% y la puntuación de coincidencia es de