Table des matières

Search

  1. Présentation de l'installation
  2. Avant l'installation Enterprise Data Catalog
  3. Installation d'Enterprise Data Catalog
  4. Après l'installation d'Enterprise Data Catalog
  5. Désinstallation
  6. Dépannage
  7. Démarrage et arrêt des services d'Enterprise Data Catalog
  8. Supprimer l'accès sudo après la création d'un cluster incorporé
  9. Configurer un répertoire journal personnalisé pour Ambari
  10. Configurer Enterprise Data Catalog pour un cluster avec WANdisco Fusion activé
  11. Configurer Informatica Custom Service Descriptor
  12. Créer des utilisateurs et des groupes d'utilisateurs personnalisés pour les services déployés dans un cluster incorporé
  13. Configurer des ports personnalisés pour les applications Hadoop

Guide d'installation et de configuration d'Enterprise Data Catalog

Guide d'installation et de configuration d'Enterprise Data Catalog

Création d'un service de catalogue

Création d'un service de catalogue

Créez un service de catalogue pour exécuter l'application Enterprise Data Catalog et gérer les connexions entre les composants d'Enterprise Data Catalog. Vous pouvez configurer les propriétés générales, du service d'application et de sécurité du service de catalogue.
Si vous prévoyez de déployer Enterprise Data Catalog sur plusieurs nœuds, veillez à configurer le service de cluster Informatica et le service de catalogue sur des nœuds distincts.
Le service de catalogue dispose des mêmes privilèges que le compte utilisateur qui le crée. Vérifiez que le compte d'utilisateur ne dispose pas de privilèges pour lire ou modifier des fichiers sensibles sur le système.
  1. Dans l'outil Administrator tool, sélectionnez un domaine, et cliquez sur l'onglet Services et nœuds.
  2. Dans le menu Actions, cliquez sur NouveauService de catalogue.
    La boîte de dialogue Nouveau service de catalogue - Étape 1 sur 4 s'affiche.
  3. Configurez les propriétés générales dans la boîte de dialogue.
    Le tableau suivant décrit les propriétés :
    Propriété Description
    Nom Nom du service. Le nom n'est pas sensible à la casse et doit être unique dans le domaine. Il ne peut pas dépasser 128 caractères ni commencer par @. Il ne peut pas non plus contenir d'espace. Les caractères qui composent le nom doivent être compatibles avec la page de code du référentiel modèle que vous associez au service de catalogue.
    Le nom ne peut pas contenir les caractères spéciaux suivants :
    ` ~ % ^ * + = { } \ ; : ' " / ? . , < > | ! ( ) ] [
    Description Description du service. La description ne peut pas dépasser 765 caractères.
    Emplacement Domaine dans lequel le service s'exécute
    Licence Licence à attribuer au service de catalogue. Sélectionnez la licence que vous avez installée avec Informatica.
    Nœud Nœud du domaine Informatica sur lequel est exécuté le service de catalogue. Si vous modifiez le nœud, vous devez recycler le service de catalogue.
    Nœuds de sauvegarde
    Si votre licence comprend la haute disponibilité, il s'agit des nœuds sur lesquels le service peut s'exécuter si le nœud principal est indisponible.
  4. Cliquez sur Suivant.
    La boîte de dialogue Nouveau service de catalogue - Étape 2 sur 4 s'affiche.
  5. Configurez les propriétés du service d'application dans la boîte de dialogue.
    Le tableau suivant décrit les propriétés :
    Propriété Description
    Service de référentiel modèle Service de référentiel modèle à associer au service de catalogue. Le service de référentiel modèle gère le référentiel modèle qu'Enterprise Data Catalog utilise. Si vous mettez à jour la propriété pour spécifier un service de référentiel modèle différent, recyclez le service de catalogue.
    Nom d'utilisateur Nom d'utilisateur de la base de données du référentiel modèle.
    Mot de passe Version cryptée du mot de passe de la base de données du référentiel modèle.
    Domaine de sécurité Nom du domaine de sécurité qui inclut le Nom d'utilisateur.
  6. Cliquez sur Suivant.
    La boîte de dialogue Nouveau service de catalogue - Étape 3 sur 4 s'affiche.
  7. Configurez les propriétés de sécurité dans la boîte de dialogue.
    Le tableau suivant décrit les propriétés :
    Propriété Description
    Port HTTP Numéro de port HTTP unique utilisé pour chaque processus de service d'intégration de données. La valeur par défaut est 8085.
    Activer le protocole TLS Indique que le service de catalogue doit utiliser HTTPS. Si vous n'avez pas configuré le service d'intégration de données pour utiliser HTTPS, le service de catalogue ne démarre pas.
    Port HTTPS Numéro de port de la connexion HTTPS.
    Fichier keystore Chemin d'accès et nom du fichier keystore. Le fichier keystore contient les clés et les certificats requis si vous utilisez le protocole de sécurité SSL avec l'administrateur de catalogue. Requis si vous sélectionnez Activer TLS (Transport Layer Security).
    Lorsque l'application Enterprise Data Catalog crée le service de catalogue, elle exporte le keystore dans un certificat et stocke le certificat dans le répertoire keystore. Veillez à configurer les autorisations de lecture et d'écriture dans le répertoire d'Enterprise Data Catalog pour stocker le certificat.
    Mot de passe keystore Mot de passe du fichier keystore. Requis si vous sélectionnez Activer TLS (Transport Layer Security).
    Protocole SSL Protocole Secure Sockets Layer à utiliser.
  8. Cliquez sur Suivant.
    La boîte de dialogue Nouveau service de catalogue - Étape 4 sur 4 s'affiche.
  9. Configurez les propriétés du cluster Hadoop dans la boîte de dialogue.
    Le tableau suivant décrit les propriétés :
    Propriété Description
    Type de cluster Sélectionnez l'une des options suivantes pour indiquer le type de déploiement d'Enterprise Data Catalog :
    • Cluster externe. Déployez Enterprise Data Catalog dans un cluster Hadoop existant sur Hortonworks, ClouderaManager ou Azure HDInsight.
    • Cluster interne. Déployez Enterprise Data Catalog dans le cluster Hadoop intégré sur Hortonworks.
    Distribution Hadoop Applicable si vous sélectionnez l'option Cluster externe pour Type de cluster. Sélectionnez une des options suivantes pour spécifier la distribution Hadoop :
    • ClouderaManager. Utilisez cette option si vous souhaitez utiliser une distribution Hadoop de ClouderaManager.
    • Hortonworks. Utilisez cette option si vous souhaitez utiliser une distribution Hadoop de Hortonworks.
      Si vous sélectionnez ClouderaManager ou Hortonworks comme distribution Hadoop, Enterprise Data Catalog identifie automatiquement les propriétés suivantes pour le type de distribution Hadoop :
      • URI du cluster ZooKeeper
      • URI du NameNode HDFS
      • URI du gestionnaire de ressources Yarn
      • URI HTTPS ou HTTP du gestionnaire de ressources Yarn
      • URI HTTP du serveur d'historique
      • Nom du service HDFS pour la haute disponibilité
      • URI du planificateur du gestionnaire de ressources Yarn
    • HDInsight. Utilisez cette option si vous souhaitez utiliser une distribution Hadoop de d'Azure HDInsight.
    • Autres. Utilisez cette option si vous souhaitez spécifier manuellement toutes les propriétés d'une distribution Hadoop de ClouderaManager, HortonWorks ou Azure HDInsight. Veillez à configurer les options personnalisées suivantes pour le service de catalogue :
      • LdmCustomOptions.yarn-site.yarn.application.classpath
      • LdmCustomOptions.yarn-site.yarn.nodemanager.webapp.address
      • LdmCustomOptions.yarn-site.yarn.nodemanager.webapp.https.address
    Si vous sélectionnez ClouderaManager ou Hortonworks, configurez les propriétés suivantes avec les autres propriétés requises :
    • URL du cluster. L'URL du cluster pour accéder à la distribution Hadoop sélectionnée.
    • Nom d'utilisateur de l'URL du cluster. Le nom d'utilisateur pour accéder à l'URL du cluster.
    • Mot de passe de l'URL du cluster. Le mot de passe associé au nom d'utilisateur de l'URL du cluster.
    URI du cluster ZooKeeper S'applique au cluster existant. Plusieurs adresses ZooKeeper dans une liste séparée par des virgules.
    URI du NameNode HDFS S'applique au cluster existant. L'URI pour accéder à HDFS.
    Utilisez le format suivant pour spécifier l'URI du NameNode dans la distribution Cloudera : <Hostname>:<Port>
    • <host name> est le nom d'hôte ou l'adresse IP du NameNode.
    • <port number> est le numéro de port sur lequel le NameNode écoute les appels de procédure distante (RPC).
    URI du gestionnaire de ressources Yarn S'applique au cluster existant. Service au sein d'Hadoop qui envoie les tâches MapReduce aux nœuds spécifiques dans la grappe.
    Utiliser le format suivant :<Hostname>:<Port>
    • <host name> est le nom ou l'adresse IP du gestionnaire de ressources Yarn.
    • <port number> est le numéro de port sur lequel le gestionnaire de ressources Yarn écoute les appels de procédure distante (RPC).
    URI HTTPS ou HTTP du gestionnaire de ressources Yarn S'applique au cluster existant. Valeur d'URI https ou http pour le gestionnaire de ressources Yarn.
    URI HTTP du serveur d'historique S'applique au cluster existant. Spécifiez une valeur pour générer des fichiers journaux d'allocation YARN pour les analyseurs. Catalog Administrator affiche l'URL des journaux dans le cadre de la surveillance des tâches.
    Nom du service HDFS pour la haute disponibilité S'applique au cluster haute disponibilité existant. Spécifiez le nom de service HDFS.
    URI du planificateur du gestionnaire de ressource Yarn S'applique au cluster existant. Valeur de l'URI du planificateur du gestionnaire de ressources Yarn.
    Nom du cluster de service S'applique à la fois aux clusters intégrés et existants. Nom du cluster de service. Assurez-vous d'avoir un répertoire /Informatica/LDM/<ServiceClusterName> dans HDFS.
    Si vous ne spécifiez pas un nom de cluster de service, Enterprise Data Catalog considère DomainName_CatalogServiceName comme la valeur par défaut. Le répertoire /Informatica/LDM/<DomainName>_<CatalogServiceName> doit alors se trouver dans HDFS. Sinon, le service de catalogue pourrait échouer.
    Type de chargement Sélectionnez l'une des options suivantes pour spécifier la taille de données que vous prévoyez de charger dans le catalogue :
    • démo
    • faible
    • moyenne
    • élevée
    Pour plus d'informations sur les valeurs de paramètres taille de données, types de charges et réglage des performances, consultez l'article de procédure Réglage des performances d'Enterprise Data Catalog.
    Activer l'authentification Kerberos Sélectionnez cette option pour activer l'authentification Kerberos du cluster existant.
    Nom de principal du service HDFS S'applique à l'authentification Kerberos. Nom de principal du service HDFS.
    Nom de principal du service YARN S'applique à l'authentification Kerberos. Nom de principal du service YARN.
    Emplacement keytab du service S'applique à l'authentification Kerberos. Chemin d'accès au fichier keytab.
    Nom du domaine Kerberos S'applique à l'authentification Kerberos. Nom du domaine Kerberos.
    Activer SSL du cluster Sélectionnez cette option pour activer l'authentification SSL pour une communication sécurisée dans le cluster existant.
    Keystore Solr S'applique à l'authentification SSL. Chemin d'accès au fichier keystore Solr.
    Mot de passe du keystore Solr S'applique à l'authentification SSL. Mot de passe du fichier keystore Solr.
    Recevoir des alertes par e-mail S'applique à la fois aux clusters intégrés et existants. Choisissez de recevoir des notifications par e-mail sur l'état du service de catalogue.
    Si vous sélectionnez cette option, vous devez activer le service de messagerie.
    Pour plus d'informations sur l'activation du service de messagerie, consultez le guide Administrator Reference for Enterprise Data Catalog.
    Activer le service de catalogue S'applique à la fois aux clusters intégrés et existants. Sélectionnez cette option pour activer le service de catalogue.
    Service de cluster Informatica S'applique au cluster intégré. Nom du service de cluster Informatica, qui est un service d'application qu'Enterprise Data Catalog utilise dans le déploiement de cluster intégré.
  10. Cliquez sur Terminer.
  • Assurez-vous que le fichier krb5.conf se trouve dans tous les nœuds de cluster et les machines du domaine dans le répertoire /etc.
  • Si vous n'avez pas choisi d'activer le service de catalogue auparavant, vous devez le réinitialiser pour le démarrer.


Mis à jour May 17, 2019


Explore Informatica Network