Table des matières

Search

  1. Préface
  2. Introduction à l'administration du catalogue
  3. Concepts d'Enterprise Data Catalog
  4. Utilisation de Catalog Administrator
  5. Gestion des ressources
  6. Gestion de la sécurité des ressources
  7. Gestion des planifications
  8. Gestion des attributs
  9. Attribution de connexions
  10. Configuration des paramètres réutilisables
  11. Surveillance d'Enterprise Data Catalog
  12. Gestion des domaines de données
  13. Gestion des domaines de données composites
  14. Gérer les définitions de synonymes
  15. Gestion de l'organisation Cloud
  16. Présentation de l'intégration de métadonnées personnalisées
  17. Utilitaires de sauvegarde de catalogue et de collecte de journaux
  18. Annexe A: Enregistrement de types de données inconnus pour l'exécution de profils
  19. Annexe B: Gestion de l'importation à partir de ServiceNow
  20. Annexe C: Fichier CSV de ressource de lignage personnalisée
  21. Annexe D: Agent Enterprise Data Catalog
  22. Annexe E: Lignage entre les ressources PowerCenter et les fichiers plats
  23. Annexe F: Extraction de métadonnées à partir de ressources inaccessibles et hors ligne

Guide de Catalog Administrator

Guide de Catalog Administrator

Domaines de données basés sur des règles

Domaines de données basés sur des règles

Vous pouvez utiliser une ou plusieurs règles pour définir un domaine de données basé sur des règles. Dans Catalog Administrator, vous pouvez créer et modifier des domaines de données basés sur des règles. Lorsque vous activez la découverte de domaines de données sur les ressources, Enterprise Data Catalog utilise les domaines de données pour découvrir les données de colonnes correspondantes ou les modèles de noms de colonnes des métadonnées extraites par les ressources. Dans Enterprise Data Catalog, vous pouvez afficher des éléments de domaines de données et des domaines de données dans des éléments de tableau, de colonne et de champ.
Lorsque vous créez ou modifiez un domaine de données, vous pouvez ajouter des règles, choisir des options de résolution de conflit, configurer des valeurs de conformité, et ajouter des domaines de données de proximité et des groupes de domaines de données. Vous pouvez organiser les domaines de données dans Enterprise Data Catalog.

Règles

Vous pouvez utiliser les règles qui ont une sortie unique avec des données de type Integer. Si vous n'utilisez pas de règle dans un domaine de données, Enterprise Data Catalog attribue le domaine de données à des colonnes similaires en fonction du domaine de données attribué à la colonne.
Choisissez l'une des règles suivantes ou les deux afin de définir un modèle de données pour un domaine de données :
  • Règle de données. Utilise les données source qui correspondent aux métadonnées. La règle découvre des colonnes contenant des données qui correspondent à une logique spécifique définie dans la règle.
  • Règle de nom de colonne. Utilise les modèles de nom de colonne qui correspondent aux métadonnées. La règle découvre les colonnes qui correspondent à la logique de nom de colonne définie dans la règle.
Lorsque vous créez ou modifiez un domaine de données, choisissez l'une des règles suivantes comme règle de données ou règle de nom de colonne :
Règle
Description
Table de référence
Choisissez la table de référence dans le référentiel modèle. Lorsque vous choisissez une table de référence, la règle utilise les données de colonne de la table de référence pour découvrir les domaines de données.
Expression régulière
Choisissez une expression régulière. Une expression régulière est une formule spécialisée pour les chaînes de texte de correspondance qui suivent un modèle. Lorsque vous choisissez une expression régulière, les règles l'utilisent pour découvrir les domaines de données.
Règles existantes
Choisissez des règles existantes dans le référentiel modèle. Vérifiez que vous disposez des autorisations appropriées pour afficher les règles avant d'en choisir une. Vous pouvez choisir les règles que vous avez créées dans Informatica Analyst ou Informatica Developer.

Résolution de conflit

Vous pouvez décider d'utiliser une règle de données ou une règle de nom de colonne pour configurer des critères d'acceptation automatique. Sélectionnez l'option
Résolution de conflit
pour accepter automatiquement le domaine de données selon la règle de données ou de nom de colonne. Vous pouvez choisir l'une des options suivantes :
  • En cas de conflit de règles, la règle de données remplace la règle de nom de colonne. Permet à Enterprise Data Catalog d'accepter automatiquement les domaines de données selon la règle de données. Si aucune règle de données n'est spécifiée, les résultats de la règle de nom de colonne sont utilisés pour accepter automatiquement les domaines de données.
  • En cas de conflit de règles, la règle de nom de colonne remplace la règle de données. Permet à Enterprise Data Catalog d'accepter automatiquement les domaines de données selon la règle de nom de colonne. Si aucune règle de nom de colonne n'est spécifiée, les résultats de la règle de données sont utilisés pour accepter automatiquement les domaines de données.
  • Faire correspondre la règle de données et de nom de colonne. Enterprise Data Catalog accepte automatiquement les domaines de données lorsque les résultats de la règle de données et de la règle de nom de colonne correspondent. Si aucune règle de données n'est spécifiée, les domaines de données ne sont pas acceptés automatiquement.
  • Faire correspondre la règle de données et de nom de colonne. Enterprise Data Catalog accepte automatiquement les domaines de données lorsque les résultats de la règle de données ou de la règle de nom de colonne correspondent. Si aucune règle de données ou de nom de colonne n'est spécifiée, les domaines de données ne sont pas acceptés automatiquement.
Si vous ne sélectionnez pas l'option
Résolution de conflit
, Enterprise Data Catalog applique les résultats de la règle de conflit pour accepter automatiquement les domaines de données. Les domaines de données ne sont pas acceptés automatiquement si vous configurez
Critères de correspondance de domaine de données
sur
Ligne
dans la section
Ressource
de Catalog Administrator.
Les domaines de données sont acceptés automatiquement dans les scénarios suivants :
La règle de données remplace la règle de nom de colonne.
Correspondance de règle de nom de colonne
Correspondance de règle de données
État de domaine de données
Oui
Non
Non
Oui
Oui, atteint la valeur de conformité minimale configurée.
Inféré
Oui
Oui
Accepté automatiquement
Non
Non
Non
Non
Oui, atteint la valeur de conformité minimale configurée.
Inféré
Non
Oui
Accepté automatiquement
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Non
Non
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Oui, atteint la valeur de conformité minimale configurée.
Inféré
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Oui
Accepté automatiquement
Oui
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Accepté automatiquement
Non
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Non
La règle de nom de colonne remplace la règle de données.
Correspondance de règle de nom de colonne
Correspondance de règle de données
État de domaine de données
Oui
Non
Accepté automatiquement
Oui
Oui, atteint la valeur de conformité minimale configurée.
Accepté automatiquement
Oui
Oui
Accepté automatiquement
Non
Non
Non
Non
Oui, dépasse la valeur de seuil d'acceptation automatique configurée.
Non
Non
Oui
Non
Non
La découverte de domaine sur les données source n'est pas effectuée.
Non
Oui
La découverte de domaine sur les données source n'est pas effectuée.
Accepté automatiquement
La découverte de domaine sur les données source n'est pas effectuée.
Oui
Accepté automatiquement
La découverte de domaine sur les données source n'est pas effectuée.
Oui, dépasse la valeur de seuil d'acceptation automatique configurée.
Inféré
La découverte de domaine sur les données source n'est pas effectuée.
Non
Non
Faire correspondre la règle de données et de nom de colonne.
Correspondance de règle de nom de colonne
Correspondance de règle de données
État de domaine de données
Oui
Oui, dépasse la valeur de seuil d'acceptation automatique configurée.
Accepté automatiquement
Oui
Oui, atteint la valeur de conformité minimale configurée.
Inféré
Oui
Non
Non
Non
Non
Non
Non
Oui, atteint la valeur de conformité minimale configurée.
Non
Non
Oui
Non
Non
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Non
Oui
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Accepté automatiquement
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Oui
Accepté automatiquement
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Non
Non
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Oui, atteint la valeur de conformité minimale configurée.
Inféré
Faire correspondre la règle de données et de nom de colonne.
Correspondance de règle de nom de colonne
Correspondance de règle de données
État de domaine de données
Oui
Non
Accepté automatiquement
Oui
Oui, atteint la valeur de conformité minimale configurée.
Accepté automatiquement
Oui
Oui
Accepté automatiquement
Non
Oui, atteint la valeur de conformité minimale configurée.
Inféré
Non
Oui
Accepté automatiquement
Non
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Non
Oui
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Accepté automatiquement
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Oui
Accepté automatiquement
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Non
Non
La découverte de domaine sur les métadonnées source n'est pas effectuée.
Oui, atteint la valeur de conformité minimale configurée.
Inféré

Domaines de données de proximité

Enterprise Data Catalog utilise les domaines de données de proximité pour affiner les résultats déduits afin d'identifier les colonnes ou champs très similaires pour un domaine de données. Les domaines de données de proximité sont un des facteurs qui permettent de déterminer le type de données dans une colonne. Lorsqu'un ou plusieurs domaines de données sont inférés avec une conformité ou une probabilité égale, vous pouvez utiliser les domaines de données de proximité pour identifier le domaine de données presque identique. Lorsque vous créez ou modifiez un domaine de données, ajoutez un ou plusieurs domaines de données en tant que domaines de données de proximité.
Enterprise Data Catalog affiche les résultats sous la forme d'un score de correspondance pour le domaine de données. Le score de correspondance est le rapport entre les domaines de données proximaux découverts dans la source de données et le nombre de domaines de données proximaux configurés pour un domaine de données déduit.
Lorsque vous activez la découverte de données, ajoutez des domaines de données et exécutez la ressource, le scanneur de profilage analyse la source de données pour le domaine de données et les domaines de données de proximité dans la ressource. Il affiche ensuite un score de correspondance dans Enterprise Data Catalog.
Exemple
Vous exécutez un profil sur un fichier CSV qui comprend les colonnes suivantes :
  • ID. Contient des nombres de sept chiffres.
  • Fname. Contient les prénoms.
  • Lname. Contient les noms.
  • Dname. Contient les noms de département.
  • Addr1. Contient les adresses.
  • Phone. Contient les numéros de téléphone.
Vous souhaitez déterminer si la colonne ID fait référence au domaine
EMPID
,
NODEID
ou
CUSTID
qui contiennent tous sept chiffres.
Lorsque vous analysez le fichier, vous déterminez que la colonne ID comprend des ID d'employés, car la table comprend des colonnes de prénoms, de noms et de départements. Les noms de département s'affichent habituellement dans les tables relatives aux employés. La colonne Dname est une preuve que la colonne ID est EMPID, et non NODEID ni CUSTID.
Dans Enterprise Data Catalog, vous pouvez ajouter des domaines de données de proximité afin de déterminer le type de données dans la colonne ID.
Pour identifier les données dans la colonne ID, effectuez les tâches suivantes dans Catalog Administrator :
  1. Créez les domaines de données
    DeptName
    et
    EMPID
    .
  2. Ajoutez les domaines de données
    FirstName
    ,
    LastName
    et
    DeptName
    en tant que domaines de données de proximité au domaine de données
    EMPID
    .
  3. Modifiez la ressource avec le fichier CSV, puis ajoutez le domaine de données
    EMPID
    .
  4. Exécutez la ressource.
Lors de l'exécution de la ressource, la colonne ID est identifiée en tant que
EMPID
,
NODEID
et
CUSTID
en raison des scores de conformité, mais les domaines de données de proximité déterminent et déduisent que la colonne ID est
EMPID
. Le catalogue affiche la colonne ID en tant que
EMPID
.

Critères de conformité

Lorsque vous choisissez une règle de données pour un domaine de données, vous pouvez configurer les critères de conformité du domaine de données. Enterprise Data Catalog identifie les domaines de données en fonction des critères de conformité.
Vous pouvez configurer les critères de conformité suivants pour un domaine de données :
  • Conformité minimale. Entrez un pourcentage de conformité minimale pour le domaine de données. Par défaut, cette option est définie sur la valeur 40.
  • Accepter automatiquement si supérieur à. Entrez un pourcentage. Enterprise Data Catalog accepte automatiquement le domaine de données si la correspondance de domaine de données dépasse le pourcentage configuré. Par défaut, cette option est définie sur la valeur 80.00 pour cent.
  • Nombre de lignes. Entrez le nombre de lignes minimales pour la conformité des données. Par défaut, cette option est définie sur 1.
Les valeurs par défaut sont appelées valeurs de conformité prédéfinies. Vous pouvez configurer une valeur personnalisée pour remplacer les valeurs prédéfinies. Lorsque vous choisissez plusieurs domaines de données ou groupes de domaines de données, Enterprise Data Catalog calcule la valeur de conformité en fonction des valeurs prédéfinies ou personnalisées.
Lorsque vous choisissez une règle de nom de colonne pour un domaine de données, vous pouvez définir la valeur de l'option
Conformité minimale
ou
Accepter automatiquement si supérieur à
sur 0 ou 100. La règle de nom de colonne n'utilise pas la valeur de l'option
Nombre de lignes
pour calculer la correspondance de domaine de données.
Lorsque vous créez ou modifiez une ressource, vous pouvez choisir les domaines de données, ses valeurs de conformité configurées ou par défaut, ou choisir des valeurs de conformité personnalisées comme critères de conformité. Vous pouvez également choisir d'exclure les valeurs NULL pendant le calcul des domaines de données.