Table des matières

Search

  1. Préface
  2. Introduction à l'administration du catalogue
  3. Concepts d'Enterprise Data Catalog
  4. Utilisation de Catalog Administrator
  5. Gestion des ressources
  6. Gestion de la sécurité des ressources
  7. Gestion des planifications
  8. Gestion des attributs
  9. Attribution de connexions
  10. Configuration des paramètres réutilisables
  11. Surveillance d'Enterprise Data Catalog
  12. Gestion des domaines de données
  13. Gestion des domaines de données composites
  14. Gérer les définitions de synonymes
  15. Gestion de l'organisation Cloud
  16. Présentation de l'intégration de métadonnées personnalisées
  17. Utilitaires de sauvegarde de catalogue et de collecte de journaux
  18. Annexe A: Enregistrement de types de données inconnus pour l'exécution de profils
  19. Annexe B: Gestion de l'importation à partir de ServiceNow
  20. Annexe C: Fichier CSV de ressource de lignage personnalisée
  21. Annexe D: Agent Enterprise Data Catalog
  22. Annexe E: Lignage entre les ressources PowerCenter et les fichiers plats
  23. Annexe F: Extraction de métadonnées à partir de ressources inaccessibles et hors ligne
  24. Annexe G: Enterprise Data CatalogModules complémentaires

Guide de Catalog Administrator

Guide de Catalog Administrator

Paramètres de profil de base

Paramètres de profil de base

Dans la section
Paramètres de profil de base
, vous pouvez configurer les options suivantes pour une ressource :

Option d'exécution de profil

Choisissez l'une des options d'exécution de profil suivantes pour que le scanneur de profilage exécute la tâche de profil sur la ressource :
Profil de colonne
Identifie le nombre de valeurs NULL, de valeurs distinctes et de valeurs non distinctes, et déduit les modèles de données et les types de données des colonnes de la ressource.
Découverte de domaines de données
Découvre tous les domaines de données associés à une colonne en fonction de la valeur ou du nom de la colonne.
Profil de colonne et découverte de domaines de données
Identifie le nombre de valeurs NULL, de valeurs distinctes et de valeurs non distinctes, et déduit les modèles de données, les types de données et les domaines de données de la ressource.
Lorsque vous exécutez plusieurs fois une analyse sur une ressource, les derniers résultats de l'analyse incluent toutes les analyses. Par exemple, vous choisissez le profil de colonne lorsque vous analysez une ressource. Ensuite, avant de réexécuter l'analyse, vous choisissez d'effectuer la découverte de domaines de données. Les résultats de la deuxième analyse incluent à la fois les résultats du profil de colonne et les résultats de la découverte de domaines de données.
Les résultats de la découverte de domaines de données affichent tous les domaines de données déduits de toutes les exécutions. Par exemple, si le domaine de données D1 est déduit lors de la première analyse de ressource et que le domaine de données D4 est déduit lors de l'analyse suivante, les résultats de la deuxième analyse afficheront D1 et D4.
Lorsque vous exécutez une analyse sur une ressource pour la deuxième fois ou plus, vous pouvez éventuellement exécuter uniquement la découverte de données sur la source. Pour exécuter uniquement la découverte de données sur la ressource, désactivez l'option
Paramètres de chargement des métadonnées
Métadonnées source
.

Type de découverte de domaines de données

Choisissez l'une des options suivantes pour que le scanneur de profilage déduise des domaines de données selon le nom de colonne, les données de colonne ou les deux :
Exécuter la découverte sur les données source
Exécute la découverte de domaines de données sur les données source.
Exécuter la découverte sur les métadonnées source
Exécute la découverte de domaines de données sur les noms de colonnes.
Exécuter la découverte sur les métadonnées et les données source
Exécute la découverte de domaines de données sur les métadonnées et les données source.
Exécuter la découverte sur les données source où les métadonnées correspondent
Exécute la découverte de domaines de données sur les métadonnées source pour identifier les noms de colonnes qui correspondent aux domaines de données. Le scanneur exécute ensuite la découverte de domaines de données sur les données source des colonnes identifiées.
Vous pouvez choisir uniquement l'option
Exécuter la découverte sur les données sources
lorsque vous exécutez la découverte de domaine de données sur des sources de données non structurées.

Option d'échantillonnage

Choisissez l'une des options d'échantillonnage suivantes pour déterminer le nombre de lignes sur lesquelles exécuter la tâche de profil :
Toutes les lignes
Exécute le profil sur toutes les lignes de la source de données.
Lignes aléatoires automatiques
Exécute le profil sur un échantillon aléatoire de lignes. Enterprise Data Catalog calcule le nombre de lignes aléatoires en fonction du nombre de lignes source.
N lignes aléatoires
Exécute le profil sur le nombre configuré de lignes aléatoires.
Dans le champ
Lignes d'échantillonnage aléatoire
, entrez le nombre de lignes sur lesquelles vous souhaitez exécuter le profil.
 premières lignes N
Exécute le profil sur les N premières lignes de la ressource.
Dans le champ
Nombre des N premières lignes d'échantillonnage
, entrez le nombre de lignes sur lesquelles exécuter le profil.
Limite de N lignes
Exécute le profil basé sur le nombre de lignes dans l'objet de données.
Dans le champ
Nombre de lignes à limiter
, entrez le nombre de lignes sur lesquelles exécuter le profil.
Pourcentage aléatoire
Exécute le profil sur un pourcentage de lignes dans l'objet de données.
Dans le champ
Pourcentage aléatoire
, entrez le nombre de lignes sur lesquelles exécuter le profil.

Priorité

Choisissez l'une des valeurs suivantes pour que le scanneur de profilage hiérarchise l'exécution de ressource :
  • Élevée
  • Faible
Le scanneur de profilage exécute les ressources ayant la priorité Élevé, puis celles ayant la priorité Faible.
Par exemple, vous disposez de trois ressources : R1, R2 et R3. La priorité définie pour R1 et R3 est Élevé tandis que celle de R2 est Faible. Lors de l'exécution des ressources, le scanner exécute d'abord R1 et R3, puis R2.

Exclure les vues

Choisissez l'option Exclure les vues si vous ne souhaitez pas que le scanneur de profilage analyse les vues dans les sources de données relationnelles.

Profilage incrémentiel

Choisissez cette option pour exécuter le profil uniquement pour les modifications apportées à la source de données. Si vous ne sélectionnez pas cette option, le profil s'exécute sur l'intégralité de la source de données.
Lorsque vous activez le profilage incrémentiel pour une ressource contenant une table et que vous exécutez plusieurs fois le profil sur la ressource, le scanneur de profilage valide le profil et l'exécute chaque fois sur la même table.
Le profilage incrémentiel est disponible pour tous les types de ressources, à l'exception des sources de bases de données relationnelles.

Filtre de profil de données

Vous pouvez inclure ou exclure des tables et des vues depuis l'exécution du profil. Utilisez des points-virgules (;) pour séparer les noms des tables et les noms des vues.
Pour plus d'informations sur le champ Filtre de profil de données, voir la rubrique Filtre de profil des données et métadonnées sources.

Filtre de profil de jeu de données ou de schéma

Vous pouvez inclure ou exclure des jeux de données de l'exécution de profil pour une ressource Amazon Redshift, Google BigQuery, Google BigQuery V2, Hive, MySQL, Oracle, Snowflake et Snowflake V2.
Pour plus d'informations sur le champ Filtre de profil de jeu de données ou de schéma, reportez-vous à la rubrique Dataset or Schema Profile Filter.
Vous pouvez sélectionner les jeux de données associés à la ressource que vous spécifiez dans le champ Schéma.

Cumulatif

Enterprise Data Catalog ne conserve pas les résultats de l'analyse précédente. Seuls les résultats de l'analyse la plus récente sont affichés. Pour conserver les résultats de profil de l'exécution précédente dans les derniers résultats d'analyse, choisissez l'option
Cumulatif
. Si vous ne choisissez pas cette option, les résultats de profil de colonne et de similarité de colonne obtenus lors de l'exécution précédente sont supprimés et seuls les résultats les plus récents s'affichent dans Enterprise Data Catalog.
Les scénarios d'utilisation suivants expliquent l'incidence de l'option
Cumulatif
associée au champ
Filtre de profil de données
et à l'option
Profilage incrémentiel
sur les résultats du profilage :
  • Option
    Cumulatif
    associée au champ
    Filtre de profil de données
    • Vous exécutez une ressource après avoir entré les noms de tables et les noms de vues dans le champ
      Filtre de profil de données
      , puis vous choisissez l'option
      Cumulatif
      .
      Dans ce scénario, le scanneur conserve les résultats précédents, ajoute les résultats les plus récents et affiche les résultats du profil consolidés dans Enterprise Data Catalog.
    • Vous exécutez la ressource après avoir entré les noms de tables et les noms de vues dans le champ
      Filtre de profil de données
      , mais vous ne choisissez pas l'option
      Cumulatif
      .
      Dans ce scénario, les résultats de profil précédents, à l'exclusion des résultats de la découverte de domaines de données, sont supprimés et les résultats de profil les plus récents s'affichent dans Enterprise Data Catalog.
  • Option
    Cumulatif
    associée à l'option
    Profilage incrémentiel
    • Vous exécutez une ressource après avoir choisi l'option
      Profilage incrémentiel
      .
      Dans ce scénario, le scanneur conserve les résultats de profil précédents, que vous choisissiez l'option
      Cumulatif
      ou pas. Enterprise Data Catalog affiche les résultats du profil consolidés.
  • Vous ne choisissez pas les options
    Cumulatif
    et
    Profilage incrémentiel
    • Vous exécutez une ressource sans choisir les options
      Cumulatif
      et
      Profilage incrémentiel
      .
      Dans ce scénario, les résultats précédents, à l'exclusion des résultats de la découverte de domaines de données, sont supprimés lors de l'exécution de profil suivante. Enterprise Data Catalog affiche les résultats du profil les plus récents.

Service d'intégration de données

Vous pouvez configurer plusieurs nœuds de service d'intégration de données (DIS) dans l'outil Administrateur tool sous l'onglet
Services et nœuds
pour extraire les informations de profilage des sources de données.
Vous pouvez créer des configurations réutilisables et sélectionner plusieurs instances de DIS. Si vous sélectionnez le pool de DIS pour l'exécution du profil ou de la similarité, le système attribue automatiquement un nœud DIS en fonction de la capacité et de la disponibilité.
Si un utilisateur sélectionne une instance de DIS spécifique dans le DISPool, toutes les tâches de profilage et de mappage s'exécutent sur l'instance de DIS sélectionnée.

Nom de la connexion source

Choisissez la connexion source pour exécuter la découverte de données. Vous pouvez créer les connexions dans Informatica Administrator.
Ce paramètre est facultatif pour une ressource du système de fichiers.

Exécuté le

Choisissez l'un des environnements d'exécution suivants pour exécuter le profil :
Blaze
Exécute le profil dans l'environnement Hadoop sur le moteur Blaze.
Spark
Exécute le profil dans l'environnement Hadoop sur le moteur Spark.
Native
Exécute le profil sur la même machine sur laquelle le service d'intégration de données s'exécute.
Databricks
Exécute le profil dans l'environnement Hadoop sur le moteur Spark dans le cluster Databricks. L'environnement d'exécution Databricks prend en charge les ressources JDBC et Azure Data Lake Store.
Choisissez Blaze ou Natif comme environnement d'exécution pour exécuter le travail de profil pour toutes les ressources, à l'exception des ressources Hive. Lorsque vous choisissez le moteur Blaze ou Spark, sélectionnez une connexion Hadoop pour exécuter les profils.

Sélectionner un domaine de données

Choisissez l'une des options de domaine de données suivantes :
Tous les domaines de données
Découvre tous les domaines de données dans la ressource.
Groupes de domaines de données spécifiques
Découvre les domaines de données dans les groupes de domaines de données sélectionnés.
Dans le champ Groupes de domaines de données, choisissez un ou plusieurs groupes de domaines de données.
Domaines de données spécifiques
Découvre les domaines de données sélectionnés.
Dans le champ Domaines de données, choisissez un ou plusieurs domaines de données.
Dans l'espace de travail
Bibliothèque
, vous pouvez afficher tous les domaines de données et groupes de domaines de données disponibles dans Enterprise Data Catalog. Pour créer un domaine de données ou un groupe de domaines de données, accédez à la page
Nouveau
Domaine de données
, ou
Nouveau
Groupe de domaines de données
. Dans l'espace de travail
Bibliothèque
, vous pouvez afficher ou supprimer des domaines de données ou des groupes de domaines de données.

Utiliser la conformité de

Choisissez l'une des valeurs de conformité suivantes pour le domaine de données :
Domaine de données
Utilise les valeurs de conformité prédéfinies que vous avez configurées pour les domaines de données.
Lorsque vous créez un domaine de données, vous pouvez configurer le pourcentage minimal de lignes source et le nombre minimal de lignes source comme critères de conformité pour le domaine de données correspondant. Ces valeurs sont des valeurs de conformité prédéfinies.
Personnalisation
Utilise la valeur de conformité que vous entrez dans le champ
Valeur de conformité personnalisée
pour les domaines de données. La valeur personnalisée remplace les valeurs de conformité prédéfinies.

Critères de correspondance de domaine de données

Choisissez l'un des critères de conformité suivants pour le domaine de données correspondant :
Pourcentage
Nombre de lignes correspondantes divisé par le nombre total de lignes.
Lignes
Nombre total des lignes.
Enterprise Data Catalog utilise les propriétés de conformité des données que vous avez configurées pour les domaines de données. Pour afficher les domaines de données, accédez à
Bibliothèque
Ressources
Domaines de données
. Ouvrez chaque domaine de données pour afficher ses propriétés configurées.

Exclure les valeurs NULL de la découverte de domaines de données

Choisissez cette option pour exclure les valeurs NULL de la source de données lorsque vous exécutez la découverte de domaines de données. Lorsque vous utilisez cette option, l'inférence du domaine de données gagne en précision et en fiabilité. Par exemple, vous disposez d'une table comportant 100 lignes, dont 30 contiennent des valeurs NULL. Le nombre de lignes de conformité est 40. Si vous ne choisissez pas cette option, la découverte de domaines de données s'exécute sur l'ensemble des 100 lignes pour découvrir les domaines de données, ce qui peut entraîner une inférence inexacte. Si vous choisissez cette option, la découverte de domaines de données s'exécute sur 70 lignes seulement et les résultats sont plus précis.
Lorsque vous sélectionnez le pourcentage minimal de lignes avec l'option Exclure les valeurs NULL, le pourcentage de conformité représente le rapport du nombre de lignes correspondantes dans une colonne divisé par le nombre de lignes qui ne contiennent pas de valeurs NULL. Par exemple, soit T le nombre total de lignes d'une colonne, M le nombre de lignes correspondantes, N le nombre de lignes avec des valeurs NULL, alors le pourcentage de conformité est M/(T-N) %.