Table des matières

Search

  1. Préface
  2. Introduction à l'administration du catalogue
  3. Concepts d'Enterprise Data Catalog
  4. Utilisation de Catalog Administrator
  5. Gestion des ressources
  6. Gestion de la sécurité des ressources
  7. Gestion des planifications
  8. Gestion des attributs
  9. Attribution de connexions
  10. Configuration des paramètres réutilisables
  11. Surveillance d'Enterprise Data Catalog
  12. Gestion des domaines de données
  13. Gestion des domaines de données composites
  14. Gérer les définitions de synonymes
  15. Gestion de l'organisation Cloud
  16. Présentation de l'intégration de métadonnées personnalisées
  17. Utilitaires de sauvegarde de catalogue et de collecte de journaux
  18. Annexe A: Enregistrement de types de données inconnus pour l'exécution de profils
  19. Annexe B: Gestion de l'importation à partir de ServiceNow
  20. Annexe C: Fichier CSV de ressource de lignage personnalisée
  21. Annexe D: Agent Enterprise Data Catalog
  22. Annexe E: Lignage entre les ressources PowerCenter et les fichiers plats
  23. Annexe F: Extraction de métadonnées à partir de ressources inaccessibles et hors ligne

Guide de Catalog Administrator

Guide de Catalog Administrator

Processus de similarité de colonne

Processus de similarité de colonne

Le processus de similarité de colonne inclut la préparation des données, la transition des données, la découverte et l'ingestion des données dans le catalogue.
Le processus de similarité de colonne inclut les tâches suivantes :
Préparation des données
Après avoir configuré les paramètres dans la section
Paramètres de préparation des données du profil de similarité et de fréquence de la valeur
et exécuté la ressource, le scanner de profilage prépare les données dans la ressource pour inférer des colonnes similaires, puis conserve les informations dans PostgreSQL. De la même manière, vous pouvez préparer et conserver des données pour plusieurs ressources.
Découverte de colonnes similaires
Pour identifier les colonnes similaires, créez et exécutez la ressource Informatica Similarity Discovery. La ressource Informatica Similarity Discovery s'exécute sur plusieurs ressources pour découvrir des colonnes similaires dans le catalogue. Lorsque vous exécutez la ressource Informatica Similarity Discovery, elle analyse PostgreSQL, compare les données préparées pour inférer des colonnes similaires et conserve les résultats dans PostgreSQL.
Les administrateurs Informatica peuvent soit installer le serveur de base de données PostgreSQL fourni avec le programme d'installation d'Enterprise Data Catalog, soit configurer une base de données PostgreSQL externe après l'installation. Les administrateurs Informatica peuvent configurer une base de données PostgreSQL externe si vous exécutez la ressource Informatica Similarity Discovery. Pour plus d'informations sur la manière dont les administrateurs Informatica peuvent configurer une base de données PostgreSQL externe, reportez-vous à l'article https://knowledge.informatica.com/s/article/You-can-t-create-logical-partitions-or-configure-high-availability-and-failover-options-when-you-use-the-PostgreSQL-database-bundled-with-the-Enterprise-Data-Catalog-installer?language=en_US de la base de connaissances (KB).
L'image suivante illustre le processus de similarité de colonne :
L'image illustre le processus de similarité de colonne.
Dans Catalog Administrator, vous pouvez activer la découverte de données et configurer les propriétés de la ressource afin de découvrir la similarité de colonne pour plusieurs ressources. Après avoir exécuté les ressources et la ressource Informatica Similarity Discovery dans Catalog Administrator, vous pouvez afficher des colonnes similaires selon les noms de colonnes, les modèles de données de colonnes et les valeurs uniques pour les actifs de données dans Enterprise Data Catalog.