Table des matières

Search

  1. Préface
  2. Introduction à l'administration du catalogue
  3. Concepts d'Enterprise Data Catalog
  4. Utilisation de Catalog Administrator
  5. Gestion des ressources
  6. Gestion de la sécurité des ressources
  7. Gestion des planifications
  8. Gestion des attributs
  9. Attribution de connexions
  10. Configuration des paramètres réutilisables
  11. Surveillance d'Enterprise Data Catalog
  12. Gestion des domaines de données
  13. Gestion des domaines de données composites
  14. Gérer les définitions de synonymes
  15. Gestion de l'organisation Cloud
  16. Présentation de l'intégration de métadonnées personnalisées
  17. Utilitaires de sauvegarde de catalogue et de collecte de journaux
  18. Annexe A: Enregistrement de types de données inconnus pour l'exécution de profils
  19. Annexe B: Gestion de l'importation à partir de ServiceNow
  20. Annexe C: Fichier CSV de ressource de lignage personnalisée
  21. Annexe D: Agent Enterprise Data Catalog
  22. Annexe E: Lignage entre les ressources PowerCenter et les fichiers plats
  23. Annexe F: Extraction de métadonnées à partir de ressources inaccessibles et hors ligne
  24. Annexe G: Enterprise Data CatalogModules complémentaires

Guide de Catalog Administrator

Guide de Catalog Administrator

Similarité de colonne

Similarité de colonne

En tant qu'analyste de données ou architecte de données, vous pouvez numériser vos données d'entreprise pour trouver des colonnes similaires. Lorsque vous exécutez le scanneur de propagation de domaine de données ou lorsque le scanneur est exécuté en fonction d'une planification, il utilise les colonnes similaires déduites pour propager les domaines de données intelligents à d'autres colonnes similaires. Ce processus vous permet de rechercher et de découvrir plus rapidement des ressources intéressantes dans le catalogue.
Dans Catalog Administrator, lorsque vous exécutez une ressource après avoir choisi l'option
Exécuter le profil de similarité
, puis que vous créez et exécutez la ressource
SimilarityDiscovery
, le scanner découvre des colonnes similaires selon les facteurs suivants : nom de colonne, modèle de données de colonnes et valeurs uniques.
Par défaut, Enterprise Data Catalog utilise tous les facteurs pour propager les domaines de données intelligents à d'autres colonnes similaires. Vous pouvez choisir un ou plusieurs facteurs pour propager les domaines de données intelligents à d'autres colonnes similaires. Par exemple, identifiez une colonne ID d'employé comme domaine de données potentiel. Créez un domaine de données intelligent pour la colonne. Pour propager cela à d'autres colonnes similaires, vous ne pouvez choisir que les facteurs de correspondance de noms et de correspondance de modèles.
Vous pouvez identifier la fréquence des valeurs après avoir activé la similarité de colonne pour une ressource et choisi l'option Enregistrer les données source. En fonction de vos besoins professionnels, vous pouvez utiliser la fréquence de la valeur pour analyser les données d'une ressource. Vous pouvez calculer la fréquence de la valeur dans la colonne vue, la colonne de table, le champ CSV, le champ fichier XML et le champ fichier JSON pour les sources relationnelles, les sources semi-structurées et les sources sur lesquelles vous pouvez exécuter le profil de colonne.