En tant qu'analyste de données ou architecte de données, vous pouvez numériser vos données d'entreprise pour trouver des colonnes similaires. Lorsque vous exécutez le scanneur de propagation de domaine de données ou lorsque le scanneur est exécuté en fonction d'une planification, il utilise les colonnes similaires déduites pour propager les domaines de données intelligents à d'autres colonnes similaires. Ce processus vous permet de rechercher et de découvrir plus rapidement des ressources intéressantes dans le catalogue.
Dans Catalog Administrator, lorsque vous exécutez une ressource après avoir choisi l'option
Exécuter le profil de similarité
, puis que vous créez et exécutez la ressource
SimilarityDiscovery
, le scanner découvre des colonnes similaires selon les facteurs suivants : nom de colonne, modèle de données de colonnes et valeurs uniques.
Par défaut, Enterprise Data Catalog utilise tous les facteurs pour propager les domaines de données intelligents à d'autres colonnes similaires. Vous pouvez choisir un ou plusieurs facteurs pour propager les domaines de données intelligents à d'autres colonnes similaires. Par exemple, identifiez une colonne ID d'employé comme domaine de données potentiel. Créez un domaine de données intelligent pour la colonne. Pour propager cela à d'autres colonnes similaires, vous ne pouvez choisir que les facteurs de correspondance de noms et de correspondance de modèles.
Vous pouvez identifier la fréquence des valeurs après avoir activé la similarité de colonne pour une ressource et choisi l'option Enregistrer les données source. En fonction de vos besoins professionnels, vous pouvez utiliser la fréquence de la valeur pour analyser les données d'une ressource. Vous pouvez calculer la fréquence de la valeur dans la colonne vue, la colonne de table, le champ CSV, le champ fichier XML et le champ fichier JSON pour les sources relationnelles, les sources semi-structurées et les sources sur lesquelles vous pouvez exécuter le profil de colonne.