Mode de fonctionnement de la similarité de colonne
Mode de fonctionnement de la similarité de colonne
Dans une organisation, il est possible qu'un nom de colonne tel qu'ID de client existe dans plusieurs sources de données. Pour identifier les sources de données qui contiennent de telles colonnes, vous pouvez utiliser la similarité de colonne dans Enterprise Data Catalog. Elle utilise un clustering non supervisé qui est une technique d'apprentissage automatique pour identifier les colonnes similaires. Enterprise Data Catalog effectue le clustering non supervisé dans plusieurs sources de données en fonction de plusieurs facteurs, tels que la correspondance de valeurs distinctes, la correspondance de modèles et la correspondance de noms. Il attribue ensuite un score de similitude global ainsi que la probabilité de correspondance pour chaque facteur.
Pour déterminer la similarité de colonne, le clustering non supervisé utilise les facteurs suivants :
Correspondance de valeurs distinctes
Détermine les colonnes similaires dans les sources de données en fonction des valeurs distinctes. Le chevauchement des valeurs distinctes est calculé en pourcentage des valeurs distinctes qui se chevauchent dans deux colonnes.
Le catalogue affiche cette mesure en tant que
Valeurs distinctes
dans la section
Colonnes similaires
% de confiance
.
Correspondance de modèles
Détermine le modèle de données de colonnes dans les sources de données et calcule le pourcentage de chevauchement des modèles dans les paires de colonnes pour tous les types de données, sauf les types de données numériques. La correspondance de modèles utilise le profilage pour identifier les modèles de données dominants pour chaque colonne et champ. La correspondance de modèles recherche ensuite un chevauchement de ces modèles dans les paires de colonnes. Enterprise Data Catalog n'infère pas les modèles X, XX et XXX pour tous les types de données.
Le catalogue affiche le pourcentage en tant que
Modèle
dans la section
Colonnes similaires
% de confiance
.
Par exemple, la correspondance de modèles identifie les paires de colonnes susceptibles de contenir le modèle de carte de crédit.
Correspondance de noms
Détermine les colonnes similaires dans les sources de données en fonction des noms de colonnes. La correspondance de noms utilise la correspondance approximative de chaînes pour identifier les colonnes qui portent des noms similaires.
Le catalogue affiche le pourcentage en tant que
Nom
dans la section
Colonnes similaires
% de confiance
.
Par exemple, la correspondance de noms peut identifier toutes les colonnes qui portent le nom de colonne, customerID.