Table des matières

Search

  1. Préface
  2. Introduction à l'administration du catalogue
  3. Concepts d'Enterprise Data Catalog
  4. Utilisation de Catalog Administrator
  5. Gestion des ressources
  6. Gestion de la sécurité des ressources
  7. Gestion des planifications
  8. Gestion des attributs
  9. Attribution de connexions
  10. Configuration des paramètres réutilisables
  11. Surveillance d'Enterprise Data Catalog
  12. Gestion des domaines de données
  13. Gestion des domaines de données composites
  14. Gérer les définitions de synonymes
  15. Gestion de l'organisation Cloud
  16. Présentation de l'intégration de métadonnées personnalisées
  17. Utilitaires de sauvegarde de catalogue et de collecte de journaux
  18. Annexe A: Enregistrement de types de données inconnus pour l'exécution de profils
  19. Annexe B: Gestion de l'importation à partir de ServiceNow
  20. Annexe C: Fichier CSV de ressource de lignage personnalisée
  21. Annexe D: Agent Enterprise Data Catalog
  22. Annexe E: Lignage entre les ressources PowerCenter et les fichiers plats
  23. Annexe F: Extraction de métadonnées à partir de ressources inaccessibles et hors ligne
  24. Annexe G: Enterprise Data CatalogModules complémentaires

Guide de Catalog Administrator

Guide de Catalog Administrator

Découverte de domaines de données sur le cluster Databricks

Découverte de domaines de données sur le cluster Databricks

Utilisez le cluster Databricks pour effectuer la découverte de données sur le moteur Spark. Le cluster Databricks est un environnement d'exécution des travaux Spark. Vous pouvez exécuter un profil pour effectuer la découverte de données pour les sources Azure à l'aide du cluster Databricks.
Vous devez effectuer les étapes suivantes pour vous connecter aux sources Azure dans le cluster Databricks :

Prérequis

Ajoutez les paramètres de configuration Spark avancés suivants pour le cluster Databricks et redémarrez le cluster :
  • fs.azure.account.auth.type OAuth
  • fs.azure.account.oauth.provider.type org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider
  • fs.azure.account.oauth2.client.id <your-service-client-id>
  • fs.azure.account.oauth2.client.secret <your-service-client-secret-key>
  • fs.azure.account.oauth2.client.endpoint https://login.microsoftonline.com/<directory-ID-of-Azure-AD>/oauth2/token
Si vous utilisez Azure comme cluster Databricks et exécutez le profil sur une ressource Microsoft Azure Data Lake Store, ajoutez le paramètre de configuration Spark avancé suivant pour le cluster Databricks et redémarrez le cluster :
spark.hadoop.fs.azure.account.key.<<ACCOUNT_NAME>>. dfs.core.windows.net <<VALUE>>

Télécharger et copier les fichiers JAR pour l'entrepôt de profilage

  1. Obtenez les fichiers JAR du pilote JDBC Oracle DataDirect pour l'entrepôt de profilage. Vous pouvez copier les fichiers à partir de l'emplacement suivant :
    <INFA_HOME>/services/shared/jars/thirdparty/com.informatica.datadirect-dworacle-6.0.0_F.jar
    .
  2. Placez les fichiers JAR du pilote JDBC Oracle DataDirect dans les emplacements suivants :
    • <INFA_HOME>/connectors/thirdparty/informatica.jdbc_v2/spark
    • <INFA_HOME>/connectors/thirdparty/informatica.jdbc_v2/common
    • <INFA_HOME>/services/shared/hadoop/<DataBricksversion>/runtimeLib

Télécharger et copier les fichiers JAR pour les objets Delta JBDC

  1. Obtenez les fichiers .jar JDBC pour les objets delta JDBC. Vous pouvez télécharger les fichiers sur le site Web du fournisseur de la base de données.
  2. Mettez à jour le fichier genericJDBC.zip avec les fichiers JAR delta JDBC à l'emplacement suivant :
    INFA_HOME/services/CatalogService/ScannerBinaries
    .
  3. Recyclez le service de catalogue.

Configurer les propriétés personnalisées dans le service d'intégration de données

  1. Lancez Informatica Administrator, puis sélectionnez
    Service d'intégration de données
    dans le
    Navigateur de domaine
    .
  2. Cliquez sur l'option
    Propriétés personnalisées
    dans l'onglet
    Propriétés
    .
  3. Définissez la propriété personnalisée suivante pour effectuer l'installation automatique des bibliothèques Informatica dans le cluster Databricks :
    ExecutionContextOptions.databricks.enable.infa.libs.autoinstall: true
  4. Recyclez le service d'intégration de données.

Sources prises en charge pour la découverte de domaines de données sur le cluster Databricks

  • Delta JDBC
  • Azure Data Lake Store Gen2