Préface
Introduction à l'administration du catalogue
- Présentation d'Enterprise Data Catalog
- Architecture Enterprise Unified Metadata
- Présentation de l'administration du catalogue
- Processus d'administration du catalogue
- Accès à Catalog Administrator
Concepts d'Enterprise Data Catalog
- Présentation des concepts d'Enterprise Data Catalog
- Catalogue
- Type de ressource
- Ressource
- Scanner
- Planification
- Exemple d'entreprise
- Domaines de données et groupes de domaines de données
- Domaines de données composites
  - Flux de travail de la découverte de domaines de données composites
- Découverte de données
- Similarité de colonne
- Propagation des termes d'entreprise
- Business Glossary Synchronisation
- Aperçu, préparation et provisionnement des données
Utilisation de Catalog Administrator
- Présentation de Catalog Administrator
- Espace de travail Présentation
- Espace de travail Ressource
- Espace de travail Surveillance
- Espace de travail Bibliothèque
- Espace de travail Domaines de données
Gestion des ressources
- Présentation de la gestion des ressources
- Ressources et scanneurs
- Ressources et planifications
- Ressources et attributs
- Ressources de référence
  - Avantages de l'extraction des actifs de référence
  - Attribuer des connexions aux ressources de référence
  - Exemple de cas d'utilisation
- Affichage des ressources de référence
- Création d'une ressource
- Type de ressource
- Filtre de profil des données et métadonnées source
- Liaison insensible à la casse
- Activation de la découverte de données
- Découverte de domaines de données composites
- Activer l'association des termes d'entreprise
- Activer le provisionnement de données
- Activer la préparation des données
- Modification d'une ressource
- Clonage d'une ressource
- Exécution d'une analyse sur une ressource
- Ressources système
- Affichage d'une ressource
- Générer un rapport de planification des ressources et un rapport des ressources en double
  - Déployer les modules complémentaires
  - Se connecter à l'outil Catalog Administrator
  - Afficher les planifications des ressources
  - Afficher les ressources en double
Gestion de la sécurité des ressources
- Présentation de la gestion de la sécurité des ressources
- Configuration des autorisations par défaut pour les ressources
- Configuration des autorisations pour des utilisateurs et des groupes d'utilisateurs spécifiques
- Application de limitations à une ressource
- Attribution des autorisations de configuration aux ressources
Gestion des planifications
- Présentation de la gestion des planifications
- Types de planifications
  - Planifications réutilisables
  - Planifications personnalisées
- Création d'une planification
- Affichage de la liste des planifications
Gestion des attributs
- Présentation de la gestion des attributs
- Attributs système
- Attributs personnalisés
- Propriétés générales des attributs
- Propriétés de la configuration de recherche
- Création d'un attribut personnalisé
- Modification d'un attribut personnalisé et d'un attribut système
- Attribution d'attributs personnalisés aux classes et aux ressources
Attribution de connexions
- Présentation de l'attribution de connexions
- Connexions attribuées automatiquement
- Connexions attribuées par l'utilisateur
- Gestion des connexions
  - Attribution de connexions aux ressources de référence
- Rapport des liens manquants
- Colonnes du rapport des liens manquants
- Génération du rapport des liens manquants
Configuration des paramètres réutilisables
- Présentation de la configuration réutilisable
- Propriétés générales de configuration
- Propriétés de la connexion du service d'intégration de données
- Configuration d'un service d'intégration de données réutilisable
Surveillance d'Enterprise Data Catalog
- Présentation de la surveillance d'Enterprise Data Catalog
- Statuts de tâches
- Distribution des tâches
- Surveillance par ressource
- Surveillance par tâche
- Gestion des tâches
- Application de filtres pour surveiller les tâches
Gestion des domaines de données
- Présentation de la gestion des domaines de données
- Meilleures pratiques pour la création de domaines de données à l'aide de règles
- Création d'un domaine de données basé sur des règles
- Création d'un groupe de domaines de données
- Affichage des domaines de données et des groupes de domaines de données
- Filtrage de domaines de données
- Filtrage de groupes de domaines de données
- Modification d'un domaine de données ou d'un groupe de domaines de données
- Autorisations et privilèges
- Découverte de domaines de données sur le moteur Spark
- Découverte de domaines de données sur le cluster Databricks
Gestion des domaines de données composites
- Présentation de la gestion des domaines de données composites
- Création de domaines de données composites
- Affichage des domaines de données composites existants
- Filtrage des domaines de données composites
- Modification des domaines de données composites existants
- Suppression des domaines de données composites existants
Gérer les définitions de synonymes
- Présentation de la gestion des définitions de synonymes
- Chargement de fichiers de définitions de synonymes
Gestion de l'organisation Cloud
- Présentation de la gestion de l'organisation Cloud
- Propriétés de l'organisation Cloud
  - Ajout d'une organisation Informatica Intelligent Cloud Services
  - Modification de l'organisation Informatica Intelligent Cloud Services
Présentation de l'intégration de métadonnées personnalisées
- Présentation de l'intégration de métadonnées personnalisées
- Flux de travail d'intégration de métadonnées personnalisées
- Téléchargement des fichiers de définition de modèle pour la validation
- Création de modèles personnalisés
- Mise à jour des modèles personnalisés
- Exportation de modèles
- Désapprobation de modèles personnalisés
- Vue d'ensemble du type de ressource personnalisé
  - Ressources ETL personnalisées
- Création de types de ressources personnalisés
- Création de ressources personnalisées
- Aperçu de l'ingestion des métadonnées
- Personnaliser les icônes et configurer les vues de relations pour les ressources personnalisées
- Lignage de contexte pour les ressources personnalisées
  - Structure de fichier CSV de ressource de lignage de contexte
Utilitaires de sauvegarde de catalogue et de collecte de journaux
- Présentation
- Accès aux utilitaires
- Exécution d'une sauvegarde de catalogue
- Utilitaires de collecte de journaux
  - Collecter les journaux de service Enterprise Data Catalog
  - Collecter les journaux de ressource
- untitled-topic
Annexe A: Enregistrement de types de données inconnus pour l'exécution de profils
- Présentation
  - Exemple
- Enregistrement d'un type de données inconnu comme type de données pris en charge
Annexe B: Gestion de l'importation à partir de ServiceNow
- Présentation de la gestion de l'importation à partir de ServiceNow
- Importation de connexions à partir de ServiceNow
Annexe C: Fichier CSV de ressource de lignage personnalisée
- Fichier CSV de ressource de lignage personnalisée
Annexe D: Agent Enterprise Data Catalog
- Installation d'Enterprise Data Catalog Agent
- Installation d'Enterprise Data Catalog Agent en tant que Service Windows
- Configuration d'Enterprise Data Catalog Agent pour SSL
Annexe E: Lignage entre les ressources PowerCenter et les fichiers plats
- Présentation
- Configuration et exécution d'une ressource de fichier plat sur une machine Windows
- Affichage du lignage entre les ressources PowerCenter et les fichiers plats
Annexe F: Extraction de métadonnées à partir de ressources inaccessibles et hors ligne
- Présentation
- Processus
- Composants de l'utilitaire de scanneur
- Prérequis et meilleures pratiques
- Exécution du script de scanneur
- Commande de script
- Structure du fichier d'archive des métadonnées

Guide de Catalog Administrator

10.5.2
- 10.5.8
- 10.5.7
- 10.5.6
- 10.5.3
- 10.5.1
- 10.5

Précédent Suivant

Mode de fonctionnement de la similarité de colonne

Dans une organisation, il est possible qu'un nom de colonne tel qu'ID de client existe dans plusieurs sources de données. Pour identifier les sources de données qui contiennent de telles colonnes, vous pouvez utiliser la similarité de colonne dans Enterprise Data Catalog. Elle utilise un clustering non supervisé qui est une technique d'apprentissage automatique pour identifier les colonnes similaires. Enterprise Data Catalog effectue le clustering non supervisé dans plusieurs sources de données en fonction de plusieurs facteurs, tels que la correspondance de valeurs distinctes, la correspondance de modèles et la correspondance de noms. Il attribue ensuite un score de similitude global ainsi que la probabilité de correspondance pour chaque facteur.

Pour déterminer la similarité de colonne, le clustering non supervisé utilise les facteurs suivants :

Correspondance de valeurs distinctes: Détermine les colonnes similaires dans les sources de données en fonction des valeurs distinctes. Le chevauchement des valeurs distinctes est calculé en pourcentage des valeurs distinctes qui se chevauchent dans deux colonnes.; Le catalogue affiche cette mesure en tant que
Valeurs distinctes
dans la section
Colonnes similaires
% de confiance
.
Correspondance de modèles: Détermine le modèle de données de colonnes dans les sources de données et calcule le pourcentage de chevauchement des modèles dans les paires de colonnes pour tous les types de données, sauf les types de données numériques. La correspondance de modèles utilise le profilage pour identifier les modèles de données dominants pour chaque colonne et champ. La correspondance de modèles recherche ensuite un chevauchement de ces modèles dans les paires de colonnes. Enterprise Data Catalog n'infère pas les modèles X, XX et XXX pour tous les types de données.; Le catalogue affiche le pourcentage en tant que
Modèle
dans la section
Colonnes similaires
% de confiance
.; Par exemple, la correspondance de modèles identifie les paires de colonnes susceptibles de contenir le modèle de carte de crédit.
Correspondance de noms: Détermine les colonnes similaires dans les sources de données en fonction des noms de colonnes. La correspondance de noms utilise la correspondance approximative de chaînes pour identifier les colonnes qui portent des noms similaires.; Le catalogue affiche le pourcentage en tant que
Nom
dans la section
Colonnes similaires
% de confiance
.; Par exemple, la correspondance de noms peut identifier toutes les colonnes qui portent le nom de colonne, customerID.

Similarité de colonne

Télécharger le guide

Envoyer les commentaires

Communities

Knowledge Base

Portail du succès

Rename Saved Search

Table des matières

Guide de Catalog Administrator

Guide de Catalog Administrator

Mode de fonctionnement de la similarité de colonne

Mode de fonctionnement de la similarité de colonne