Préface
Introduction à l'administration du catalogue
- Présentation d'Enterprise Data Catalog
- Architecture Enterprise Unified Metadata
- Présentation de l'administration du catalogue
- Processus d'administration du catalogue
- Accès à Catalog Administrator
Concepts d'Enterprise Data Catalog
- Présentation des concepts d'Enterprise Data Catalog
- Catalogue
- Type de ressource
- Ressource
- Scanner
- Planification
- Exemple d'entreprise
- Domaines de données et groupes de domaines de données
- Domaines de données composites
  - Flux de travail de la découverte de domaines de données composites
- Découverte de données
- Similarité de colonne
- Propagation des termes d'entreprise
- Business Glossary Synchronisation
- Aperçu et provisionnement des données
Utilisation de Catalog Administrator
- Présentation de Catalog Administrator
- Espace de travail Présentation
- Espace de travail Ressource
- Espace de travail Surveillance
- Espace de travail Bibliothèque
- Espace de travail Domaines de données
Gestion des ressources
- Présentation de la gestion des ressources
- Ressources et scanneurs
- Ressources et planifications
- Ressources et attributs
- Ressources de référence
  - Avantages de l'extraction des actifs de référence
  - Attribuer des connexions aux ressources de référence
  - Exemple de cas d'utilisation
- Affichage des ressources de référence
- Création d'une ressource
- Type de ressource
- Filtre de profil de jeu de données ou de schéma
- Filtre de profil des données et métadonnées sources
- Liaison insensible à la casse
- Activation de la découverte de données
- Découverte de domaines de données composites
- Activer l'association des termes métier
- Activer le provisionnement de données
- Modification d'une ressource
- Clonage d'une ressource
- Exécution d'une analyse sur une ressource
- Ressources système
- Affichage d'une ressource
Gestion de la sécurité des ressources
- Présentation de la gestion de la sécurité des ressources
- Configuration des autorisations par défaut pour les ressources
- Configuration des autorisations pour des utilisateurs et des groupes d'utilisateurs spécifiques
- Application de limitations à une ressource
- Attribution des autorisations de configuration aux ressources
Gestion des planifications
- Présentation de la gestion des planifications
- Types de planifications
  - Planifications réutilisables
  - Planifications personnalisées
- Création d'une planification
- Affichage de la liste des planifications
Gestion des attributs
- Présentation de la gestion des attributs
- Attributs système
- Attributs personnalisés
- Propriétés générales des attributs
- Propriétés de la configuration de recherche
- Création d'un attribut personnalisé
- Modification d'un attribut personnalisé et d'un attribut système
- Attribution d'attributs personnalisés aux classes et aux ressources
Attribution de connexions
- Présentation de l'attribution de connexions
- Connexions attribuées automatiquement
- Connexions attribuées par l'utilisateur
- Gestion des connexions
  - Attribution de connexions aux ressources de référence
- Rapport des liens manquants
- Colonnes du rapport des liens manquants
- Génération du rapport des liens manquants
Configuration des paramètres réutilisables
- Présentation de la configuration réutilisable
- Propriétés générales de configuration
- Propriétés de la connexion du service d'intégration de données
- Configuration d'un service d'intégration de données réutilisable
Surveillance d'Enterprise Data Catalog
- Présentation de la surveillance d'Enterprise Data Catalog
- Statuts de tâches
- Distribution des tâches
- Surveillance par ressource
- Surveillance par tâche
- Gestion des tâches
- Application de filtres pour surveiller les tâches
Gestion des domaines de données
- Présentation de la gestion des domaines de données
- Meilleures pratiques pour la création de domaines de données à l'aide de règles
- Création d'un domaine de données basé sur des règles
- Création d'un groupe de domaines de données
- Affichage des domaines de données et des groupes de domaines de données
- Filtrage de domaines de données
- Filtrage de groupes de domaines de données
- Modification d'un domaine de données ou d'un groupe de domaines de données
- Autorisations et privilèges
- Découverte de domaines de données sur le moteur Spark
- Découverte de domaines de données sur le cluster Databricks
Gestion des domaines de données composites
- Présentation de la gestion des domaines de données composites
- Création de domaines de données composites
- Affichage des domaines de données composites existants
- Filtrage des domaines de données composites
- Modification des domaines de données composites existants
- Suppression des domaines de données composites existants
Gérer les définitions de synonymes
- Présentation de la gestion des définitions de synonymes
- Validation des fichiers de définitions des synonymes
- Chargement de fichiers de définitions de synonymes
Gestion de l'organisation Cloud
- Présentation de la gestion de l'organisation Cloud
- Propriétés de l'organisation Cloud
  - Ajout d'une organisation Informatica Intelligent Cloud Services
  - Modification de l'organisation Informatica Intelligent Cloud Services
Présentation de l'intégration de métadonnées personnalisées
- Présentation de l'intégration de métadonnées personnalisées
- Flux de travail d'intégration de métadonnées personnalisées
- Téléchargement des fichiers de définition de modèle pour la validation
- Création de modèles personnalisés
- Mise à jour des modèles personnalisés
- Exportation de modèles
- Désapprobation de modèles personnalisés
- Vue d'ensemble du type de ressource personnalisé
  - Ressources ETL personnalisées
- Création de types de ressources personnalisés
- Création de ressources personnalisées
- Aperçu de l'ingestion des métadonnées
- Personnaliser les icônes et configurer les vues de relations pour les ressources personnalisées
- Lignage de contexte pour les ressources personnalisées
  - Structure de fichier CSV de ressource de lignage de contexte
Utilitaires de sauvegarde de catalogue et de collecte de journaux
- Présentation
- Accès aux utilitaires
- Exécution d'une sauvegarde de catalogue
- Utilitaires de collecte de journaux
  - Collecter les journaux de service Enterprise Data Catalog
  - Collecter les journaux de ressource
- untitled-topic
Annexe A: Enregistrement de types de données inconnus pour l'exécution de profils
- Présentation
  - Exemple
- Enregistrement d'un type de données inconnu comme type de données pris en charge
Annexe B: Gestion de l'importation à partir de ServiceNow
- Présentation de la gestion de l'importation à partir de ServiceNow
- Importation de connexions à partir de ServiceNow
Annexe C: Fichier CSV de ressource de lignage personnalisée
- Fichier CSV de ressource de lignage personnalisée
Annexe D: Agent Enterprise Data Catalog
- Installation d'Enterprise Data Catalog Agent
- Installation d'Enterprise Data Catalog Agent en tant que Service Windows
- Configuration d'Enterprise Data Catalog Agent pour SSL
Annexe E: Lignage entre les ressources PowerCenter et les fichiers plats
- Présentation
- Configuration et exécution d'une ressource de fichier plat sur une machine Windows
- Affichage du lignage entre les ressources PowerCenter et les fichiers plats
Annexe F: Extraction de métadonnées à partir de ressources inaccessibles et hors ligne
- Présentation
- Processus
- Composants de l'utilitaire de scanneur
- Prérequis et meilleures pratiques
- Exécution du script de scanneur
- Commande de script
- Structure du fichier d'archive des métadonnées
Annexe G: Enterprise Data CatalogModules complémentaires
- Présentation des modules complémentaires Enterprise Data Catalog
- Déployer les modules complémentaires
- Connectez-vous aux modules complémentaires Enterprise Data Catalog
- Afficher les planifications de ressources et les ressources en double
- Accepter les domaines de données
- Déplacement de domaines de données à l'aide de l'utilitaire Gestionnaire de domaines de données
- Associer des termes d'entreprise à partir du fichier de synonymes
- Migrer des attributs personnalisés

Guide de Catalog Administrator

10.5.8
- 10.5.7
- 10.5.6
- 10.5.3
- 10.5.2
- 10.5.1
- 10.5

Précédent Suivant

Paramètres de profil de base

Dans la section

Paramètres de profil de base

, vous pouvez configurer les options suivantes pour une ressource :

Option d'exécution de profil

Choisissez l'une des options d'exécution de profil suivantes pour que le scanneur de profilage exécute la tâche de profil sur la ressource :

Profil de colonne: Identifie le nombre de valeurs NULL, de valeurs distinctes et de valeurs non distinctes, et déduit les modèles de données et les types de données des colonnes de la ressource.
Découverte de domaines de données: Découvre tous les domaines de données associés à une colonne en fonction de la valeur ou du nom de la colonne.
Profil de colonne et découverte de domaines de données: Identifie le nombre de valeurs NULL, de valeurs distinctes et de valeurs non distinctes, et déduit les modèles de données, les types de données et les domaines de données de la ressource.

Lorsque vous exécutez plusieurs fois une analyse sur une ressource, les derniers résultats de l'analyse incluent toutes les analyses. Par exemple, vous choisissez le profil de colonne lorsque vous analysez une ressource. Ensuite, avant de réexécuter l'analyse, vous choisissez d'effectuer la découverte de domaines de données. Les résultats de la deuxième analyse incluent à la fois les résultats du profil de colonne et les résultats de la découverte de domaines de données.

Les résultats de la découverte de domaines de données affichent tous les domaines de données déduits de toutes les exécutions. Par exemple, si le domaine de données D1 est déduit lors de la première analyse de ressource et que le domaine de données D4 est déduit lors de l'analyse suivante, les résultats de la deuxième analyse afficheront D1 et D4.

Lorsque vous exécutez une analyse sur une ressource pour la deuxième fois ou plus, vous pouvez éventuellement exécuter uniquement la découverte de données sur la source. Pour exécuter uniquement la découverte de données sur la ressource, désactivez l'option

Paramètres de chargement des métadonnées

Métadonnées source

Type de découverte de domaines de données

Choisissez l'une des options suivantes pour que le scanneur de profilage déduise des domaines de données selon le nom de colonne, les données de colonne ou les deux :

Exécuter la découverte sur les données source: Exécute la découverte de domaines de données sur les données source.
Exécuter la découverte sur les métadonnées source: Exécute la découverte de domaines de données sur les noms de colonnes.
Exécuter la découverte sur les métadonnées et les données source: Exécute la découverte de domaines de données sur les métadonnées et les données source.
Exécuter la découverte sur les données source où les métadonnées correspondent: Exécute la découverte de domaines de données sur les métadonnées source pour identifier les noms de colonnes qui correspondent aux domaines de données. Le scanneur exécute ensuite la découverte de domaines de données sur les données source des colonnes identifiées.

Vous pouvez choisir uniquement l'option

Exécuter la découverte sur les données sources

lorsque vous exécutez la découverte de domaine de données sur des sources de données non structurées.

Option d'échantillonnage

Choisissez l'une des options d'échantillonnage suivantes pour déterminer le nombre de lignes sur lesquelles exécuter la tâche de profil :

Toutes les lignes: Exécute le profil sur toutes les lignes de la source de données.
Lignes aléatoires automatiques: Exécute le profil sur un échantillon aléatoire de lignes. Enterprise Data Catalog calcule le nombre de lignes aléatoires en fonction du nombre de lignes source.
N lignes aléatoires: Exécute le profil sur le nombre configuré de lignes aléatoires.

Dans le champ
Lignes d'échantillonnage aléatoire
, entrez le nombre de lignes sur lesquelles vous souhaitez exécuter le profil.
premières lignes N: Exécute le profil sur les N premières lignes de la ressource.

Dans le champ
Nombre des N premières lignes d'échantillonnage
, entrez le nombre de lignes sur lesquelles exécuter le profil.

Limite de N lignes: Exécute le profil basé sur le nombre de lignes dans l'objet de données.
Dans le champ
Nombre de lignes à limiter
, entrez le nombre de lignes sur lesquelles exécuter le profil.

Pourcentage aléatoire: Exécute le profil sur un pourcentage de lignes dans l'objet de données.
Dans le champ
Pourcentage aléatoire
, entrez le nombre de lignes sur lesquelles exécuter le profil.

Priorité

Choisissez l'une des valeurs suivantes pour que le scanneur de profilage hiérarchise l'exécution de ressource :

Élevée

Faible

Le scanneur de profilage exécute les ressources ayant la priorité Élevé, puis celles ayant la priorité Faible.

Par exemple, vous disposez de trois ressources : R1, R2 et R3. La priorité définie pour R1 et R3 est Élevé tandis que celle de R2 est Faible. Lors de l'exécution des ressources, le scanner exécute d'abord R1 et R3, puis R2.

Exclure les vues

Choisissez l'option Exclure les vues si vous ne souhaitez pas que le scanneur de profilage analyse les vues dans les sources de données relationnelles.

Profilage incrémentiel

Choisissez cette option pour exécuter le profil uniquement pour les modifications apportées à la source de données. Si vous ne sélectionnez pas cette option, le profil s'exécute sur l'intégralité de la source de données.

Lorsque vous activez le profilage incrémentiel pour une ressource contenant une table et que vous exécutez plusieurs fois le profil sur la ressource, le scanneur de profilage valide le profil et l'exécute chaque fois sur la même table.

Le profilage incrémentiel est disponible pour tous les types de ressources, à l'exception des sources de bases de données relationnelles.

Filtre de profil de données

Vous pouvez inclure ou exclure des tables et des vues depuis l'exécution du profil. Utilisez des points-virgules (;) pour séparer les noms des tables et les noms des vues.

Pour plus d'informations sur le champ Filtre de profil de données, voir la rubrique Filtre de profil des données et métadonnées sources.

Filtre de profil de jeu de données ou de schéma

Vous pouvez inclure ou exclure des jeux de données de l'exécution de profil pour une ressource Amazon Redshift, Google BigQuery, Google BigQuery V2, Hive, MySQL, Oracle, Snowflake et Snowflake V2.

Pour plus d'informations sur le champ Filtre de profil de jeu de données ou de schéma, reportez-vous à la rubrique Dataset or Schema Profile Filter.

Vous pouvez sélectionner les jeux de données associés à la ressource que vous spécifiez dans le champ Schéma.

Cumulatif

Enterprise Data Catalog ne conserve pas les résultats de l'analyse précédente. Seuls les résultats de l'analyse la plus récente sont affichés. Pour conserver les résultats de profil de l'exécution précédente dans les derniers résultats d'analyse, choisissez l'option

Cumulatif

. Si vous ne choisissez pas cette option, les résultats de profil de colonne et de similarité de colonne obtenus lors de l'exécution précédente sont supprimés et seuls les résultats les plus récents s'affichent dans Enterprise Data Catalog.

Les scénarios d'utilisation suivants expliquent l'incidence de l'option

Cumulatif

associée au champ

Filtre de profil de données

et à l'option

Profilage incrémentiel

sur les résultats du profilage :

Option

Cumulatif

associée au champ

Filtre de profil de données

Vous exécutez une ressource après avoir entré les noms de tables et les noms de vues dans le champ

Filtre de profil de données

, puis vous choisissez l'option

Cumulatif

Dans ce scénario, le scanneur conserve les résultats précédents, ajoute les résultats les plus récents et affiche les résultats du profil consolidés dans Enterprise Data Catalog.

Vous exécutez la ressource après avoir entré les noms de tables et les noms de vues dans le champ

Filtre de profil de données

, mais vous ne choisissez pas l'option

Cumulatif

Dans ce scénario, les résultats de profil précédents, à l'exclusion des résultats de la découverte de domaines de données, sont supprimés et les résultats de profil les plus récents s'affichent dans Enterprise Data Catalog.

Option

Cumulatif

associée à l'option

Profilage incrémentiel

Vous exécutez une ressource après avoir choisi l'option

Profilage incrémentiel

Dans ce scénario, le scanneur conserve les résultats de profil précédents, que vous choisissiez l'option

Cumulatif

ou pas. Enterprise Data Catalog affiche les résultats du profil consolidés.

Vous ne choisissez pas les options

Cumulatif

Profilage incrémentiel

Vous exécutez une ressource sans choisir les options

Cumulatif

Profilage incrémentiel

Dans ce scénario, les résultats précédents, à l'exclusion des résultats de la découverte de domaines de données, sont supprimés lors de l'exécution de profil suivante. Enterprise Data Catalog affiche les résultats du profil les plus récents.

Service d'intégration de données

Vous pouvez configurer plusieurs nœuds de service d'intégration de données (DIS) dans l'outil Administrateur tool sous l'onglet

Services et nœuds

pour extraire les informations de profilage des sources de données.

Vous pouvez créer des configurations réutilisables et sélectionner plusieurs instances de DIS. Si vous sélectionnez le pool de DIS pour l'exécution du profil ou de la similarité, le système attribue automatiquement un nœud DIS en fonction de la capacité et de la disponibilité.

Si un utilisateur sélectionne une instance de DIS spécifique dans le DISPool, toutes les tâches de profilage et de mappage s'exécutent sur l'instance de DIS sélectionnée.

Nom de la connexion source

Choisissez la connexion source pour exécuter la découverte de données. Vous pouvez créer les connexions dans Informatica Administrator.

Ce paramètre est facultatif pour une ressource du système de fichiers.

Exécuté le

Choisissez l'un des environnements d'exécution suivants pour exécuter le profil :

Blaze: Exécute le profil dans l'environnement Hadoop sur le moteur Blaze.
Spark: Exécute le profil dans l'environnement Hadoop sur le moteur Spark.
Native: Exécute le profil sur la même machine sur laquelle le service d'intégration de données s'exécute.
Databricks: Exécute le profil dans l'environnement Hadoop sur le moteur Spark dans le cluster Databricks. L'environnement d'exécution Databricks prend en charge les ressources JDBC et Azure Data Lake Store.

Choisissez Blaze ou Natif comme environnement d'exécution pour exécuter le travail de profil pour toutes les ressources, à l'exception des ressources Hive. Lorsque vous choisissez le moteur Blaze ou Spark, sélectionnez une connexion Hadoop pour exécuter les profils.

Sélectionner un domaine de données

Choisissez l'une des options de domaine de données suivantes :

Tous les domaines de données: Découvre tous les domaines de données dans la ressource.
Groupes de domaines de données spécifiques: Découvre les domaines de données dans les groupes de domaines de données sélectionnés.

Dans le champ Groupes de domaines de données, choisissez un ou plusieurs groupes de domaines de données.
Domaines de données spécifiques: Découvre les domaines de données sélectionnés.
Dans le champ Domaines de données, choisissez un ou plusieurs domaines de données.

Dans l'espace de travail

Bibliothèque

, vous pouvez afficher tous les domaines de données et groupes de domaines de données disponibles dans Enterprise Data Catalog. Pour créer un domaine de données ou un groupe de domaines de données, accédez à la page

Nouveau

Domaine de données

, ou

Nouveau

Groupe de domaines de données

. Dans l'espace de travail

Bibliothèque

, vous pouvez afficher ou supprimer des domaines de données ou des groupes de domaines de données.

Utiliser la conformité de

Choisissez l'une des valeurs de conformité suivantes pour le domaine de données :

Domaine de données: Utilise les valeurs de conformité prédéfinies que vous avez configurées pour les domaines de données.
Lorsque vous créez un domaine de données, vous pouvez configurer le pourcentage minimal de lignes source et le nombre minimal de lignes source comme critères de conformité pour le domaine de données correspondant. Ces valeurs sont des valeurs de conformité prédéfinies.
Personnalisation: Utilise la valeur de conformité que vous entrez dans le champ
Valeur de conformité personnalisée
pour les domaines de données. La valeur personnalisée remplace les valeurs de conformité prédéfinies.

Critères de correspondance de domaine de données

Choisissez l'un des critères de conformité suivants pour le domaine de données correspondant :

Pourcentage: Nombre de lignes correspondantes divisé par le nombre total de lignes.
Lignes: Nombre total des lignes.

Enterprise Data Catalog utilise les propriétés de conformité des données que vous avez configurées pour les domaines de données. Pour afficher les domaines de données, accédez à

Bibliothèque

Ressources

Domaines de données

. Ouvrez chaque domaine de données pour afficher ses propriétés configurées.

Exclure les valeurs NULL de la découverte de domaines de données

Choisissez cette option pour exclure les valeurs NULL de la source de données lorsque vous exécutez la découverte de domaines de données. Lorsque vous utilisez cette option, l'inférence du domaine de données gagne en précision et en fiabilité. Par exemple, vous disposez d'une table comportant 100 lignes, dont 30 contiennent des valeurs NULL. Le nombre de lignes de conformité est 40. Si vous ne choisissez pas cette option, la découverte de domaines de données s'exécute sur l'ensemble des 100 lignes pour découvrir les domaines de données, ce qui peut entraîner une inférence inexacte. Si vous choisissez cette option, la découverte de domaines de données s'exécute sur 70 lignes seulement et les résultats sont plus précis.

Lorsque vous sélectionnez le pourcentage minimal de lignes avec l'option Exclure les valeurs NULL, le pourcentage de conformité représente le rapport du nombre de lignes correspondantes dans une colonne divisé par le nombre de lignes qui ne contiennent pas de valeurs NULL. Par exemple, soit T le nombre total de lignes d'une colonne, M le nombre de lignes correspondantes, N le nombre de lignes avec des valeurs NULL, alors le pourcentage de conformité est M/(T-N) %.

Découverte de données

Télécharger le guide

Envoyer les commentaires

Communities

Knowledge Base

Portail du succès