Table des matières

Search

  1. Préface
  2. Introduction à l'administration du catalogue
  3. Concepts d'Enterprise Data Catalog
  4. Utilisation de Catalog Administrator
  5. Gestion des ressources
  6. Gestion de la sécurité des ressources
  7. Gestion des planifications
  8. Gestion des attributs
  9. Attribution de connexions
  10. Configuration des paramètres réutilisables
  11. Surveillance d'Enterprise Data Catalog
  12. Gestion des domaines de données
  13. Gestion des domaines de données composites
  14. Gérer les définitions de synonymes
  15. Gestion de l'organisation Cloud
  16. Présentation de l'intégration de métadonnées personnalisées
  17. Utilitaires de sauvegarde de catalogue et de collecte de journaux
  18. Annexe A: Enregistrement de types de données inconnus pour l'exécution de profils
  19. Annexe B: Gestion de l'importation à partir de ServiceNow
  20. Annexe C: Fichier CSV de ressource de lignage personnalisée
  21. Annexe D: Agent Enterprise Data Catalog
  22. Annexe E: Lignage entre les ressources PowerCenter et les fichiers plats
  23. Annexe F: Extraction de métadonnées à partir de ressources inaccessibles et hors ligne

Guide de Catalog Administrator

Guide de Catalog Administrator

Exemple d'entreprise

Exemple d'entreprise

Alex est analyste de données dans une institution financière qui a des succursales et des franchises à travers l'Amérique du Nord. L'institution a récemment acquis une autre institution financière de taille égale. Certains clients ont des comptes dans les deux institutions financières. Alex et son équipe sont invités à intégrer toutes les informations relatives aux clients dans une base de données unique. Il souhaite également rechercher les clients en fonction des régions telles que le Nord-Est, le Sud, le Midwest et l'Ouest.
Voici les défis auxquels Alex et son équipe font face :
  • Parcourir plusieurs sources pour identifier des données de clients similaires.
  • Identifier le lignage et l'analyse d'impact des données avant de supprimer des données dupliquées.
  • Identifier les éléments de données qui peuvent être joints.
  • Baliser les colonnes similaires avec des attributs supplémentaires afin qu'Alex et son équipe puissent rechercher des données nécessaires plus rapidement.
Le tableau suivant répertorie les scénarios qu'Alex et son équipe doivent gérer et la manière dont Alex utilise la ressource Informatica Similarity Discovery et les domaines de données pour extraire les informations requises :
Scénario
Résolution d'écran
Différents systèmes de base de données sont utilisés par l'institution financière et l'institution acquise.
Identifiez les sources de données qui doivent être analysées pour trouver les clients requis correspondant aux critères d'admissibilité. Ajoutez ces sources de données en tant que ressources dans Catalog Administrator afin d'extraire les métadonnées de ces ressources.
Alex identifie les bases de données de l'entreprise qui incluent les informations relatives aux clients.
Il existe un manque de cohérence et de contexte dans les noms de colonnes, ce qui rend difficile la recherche et l'analyse de colonnes source avec des données similaires.
Dans l'administrateur de catalogue, activez les options de découverte de données et d'exécution du profil de similitude pour les ressources sélectionnées. Le scanner de profilage et la ressource Informatica Similarity Discovery identifient les colonnes similaires dans les ressources. Les colonnes similaires sont identifiées en fonction des noms de colonnes, des modèles de données de colonnes et des valeurs uniques. Enterprise Data Catalog affiche les colonnes similaires pour les actifs de données.
Alex utilise des colonnes similaires pour identifier les colonnes qui contiennent des données similaires dans toutes les sources de données, pour identifier les données qui peuvent être jointes et pour dupliquer les données qui peuvent être supprimées.
Par exemple, Alex découvre d'après un rapport bancaire existant que les deux organisations stockent le numéro de sécurité sociale dans tous les dossiers qui contiennent des informations relatives aux clients. Sur la base de ces informations, il déduit que si les tables contiennent une colonne avec des informations SSN, les informations relatives aux clients peuvent être présentes dans les tables. Pour vérifier, Alex recherche une colonne SSN dans le catalogue, Enterprise Data Catalog répertorie la colonne recherchée ainsi que d'autres colonnes à partir de toutes les sources de données qui sont similaires à la colonne recherchée. D'après les résultats de la recherche, Alex et son équipe identifient les données qui peuvent être jointes et les données dupliquées qui peuvent être supprimées.
Identifier le lignage de chaque ressource de données, les autres ressources qui sont liées à une ressource particulière et l'impact que l'adhésion ou la suppression d'une ressource de données spécifique peut causer sur les autres ressources de données connexes.
Dans Enterprise Data Catalog, affichez le lignage, le résumé de l'impact et la vue des relations pour les ressources identifiées.
Alex et son équipe peuvent afficher le lignage, le résumé de l'impact et les détails de la ressource afin d'identifier l'impact avant la mise à jour ou la suppression d'une ressource spécifique.
Classer les clients en fonction des régions et effectuer des recherches plus rapidement.
Dans Catalog Administrator, créez des domaines de données et des groupes de domaines de données pour rechercher une liste de colonnes avec des informations relatives aux clients spécifiques à une région.
Pour définir des domaines de données et des groupes de domaines de données afin de classer les clients en fonction des régions, Alex effectue les étapes suivantes :
  1. Il crée un domaine de données appelé
    customer_details
    .
  2. Il attribue le domaine de données à l'une des colonnes qui contient le SSN dans Enterprise Data Catalog.
  3. Il crée le domaine de données
    ZIP_code_<area>
    .
    Dans Informatica Analyst ou Informatica Developer, Alex spécifie une règle pour remplacer le paramètre
    <area>
    dans le domaine de données avec les succursales des institutions financières. Enterprise Data Catalog utilise la règle pour faire correspondre un modèle de colonne avec le code postal pour une succursale spécifique.
    Une règle est une logique d'entreprise qui définit les conditions appliquées aux données lorsque vous exécutez un profil. Vous pouvez ajouter une règle au profil afin de nettoyer, modifier ou valider les données du profil.
  4. Il crée quatre groupes de domaines de données basés sur les régions appelées
    Northeast
    ,
    South
    ,
    Midwest
    , et
    West
    , et inclut les domaines de données dans leur groupe de domaines de données respectif.
    Par exemple, le domaine de données qui correspond au code postal
    ZIP_code_LosAngeles
    est inclus dans le groupe de domaines de données
    West
    .
  5. Alex effectue une recherche dans Enterprise Data Catalog pour customer_details. Enterprise Data Catalog répertorie toutes les colonnes qui incluent les détails du SSN des clients et affiche également les domaines de données (
    ZIP_code_<area>
    ) et les groupes de domaines de données associés à la colonne.
Alex peut également effectuer une recherche basée sur les groupes de domaines de données définis pour trouver une liste de colonnes contenant des informations relatives aux clients spécifiques à une région.