Table des matières

Search

  1. Préface
  2. Introduction à l'administration du catalogue
  3. Concepts d'Enterprise Data Catalog
  4. Utilisation de Catalog Administrator
  5. Gestion des ressources
  6. Gestion de la sécurité des ressources
  7. Gestion des planifications
  8. Gestion des attributs
  9. Attribution de connexions
  10. Configuration des paramètres réutilisables
  11. Surveillance d'Enterprise Data Catalog
  12. Gestion des domaines de données
  13. Gestion des domaines de données composites
  14. Gérer les définitions de synonymes
  15. Gestion de l'organisation Cloud
  16. Présentation de l'intégration de métadonnées personnalisées
  17. Utilitaires de sauvegarde de catalogue et de collecte de journaux
  18. Annexe A: Enregistrement de types de données inconnus pour l'exécution de profils
  19. Annexe B: Gestion de l'importation à partir de ServiceNow
  20. Annexe C: Fichier CSV de ressource de lignage personnalisée
  21. Annexe D: Agent Enterprise Data Catalog
  22. Annexe E: Lignage entre les ressources PowerCenter et les fichiers plats
  23. Annexe F: Extraction de métadonnées à partir de ressources inaccessibles et hors ligne

Guide de Catalog Administrator

Guide de Catalog Administrator

Mode de fonctionnement de la similarité de colonne

Mode de fonctionnement de la similarité de colonne

Dans une organisation, il est possible qu'un nom de colonne tel qu'ID de client existe dans plusieurs sources de données. Pour identifier les sources de données qui contiennent de telles colonnes, vous pouvez utiliser la similarité de colonne dans Enterprise Data Catalog. Elle utilise un clustering non supervisé qui est une technique d'apprentissage automatique pour identifier les colonnes similaires. Enterprise Data Catalog effectue le clustering non supervisé dans plusieurs sources de données en fonction de plusieurs facteurs, tels que la correspondance de valeurs distinctes, la correspondance de modèles et la correspondance de noms. Il attribue ensuite un score de similitude global ainsi que la probabilité de correspondance pour chaque facteur.
Pour déterminer la similarité de colonne, le clustering non supervisé utilise les facteurs suivants :
Correspondance de valeurs distinctes
Détermine les colonnes similaires dans les sources de données en fonction des valeurs distinctes. Le chevauchement des valeurs distinctes est calculé en pourcentage des valeurs distinctes qui se chevauchent dans deux colonnes.
Le catalogue affiche cette mesure en tant que
Valeurs distinctes
dans la section
Colonnes similaires
% de confiance
.
Correspondance de modèles
Détermine le modèle de données de colonnes dans les sources de données et calcule le pourcentage de chevauchement des modèles dans les paires de colonnes pour tous les types de données, sauf les types de données numériques. La correspondance de modèles utilise le profilage pour identifier les modèles de données dominants pour chaque colonne et champ. La correspondance de modèles recherche ensuite un chevauchement de ces modèles dans les paires de colonnes. Enterprise Data Catalog n'infère pas les modèles X, XX et XXX pour tous les types de données.
Le catalogue affiche le pourcentage en tant que
Modèle
dans la section
Colonnes similaires
% de confiance
.
Par exemple, la correspondance de modèles identifie les paires de colonnes susceptibles de contenir le modèle de carte de crédit.
Correspondance de noms
Détermine les colonnes similaires dans les sources de données en fonction des noms de colonnes. La correspondance de noms utilise la correspondance approximative de chaînes pour identifier les colonnes qui portent des noms similaires.
Le catalogue affiche le pourcentage en tant que
Nom
dans la section
Colonnes similaires
% de confiance
.
Par exemple, la correspondance de noms peut identifier toutes les colonnes qui portent le nom de colonne, customerID.