Table des matières

Search

  1. Présentation de l'installation
  2. Avant l'installation Enterprise Data Catalog
  3. Installation d'Enterprise Data Catalog
  4. Après l'installation d'Enterprise Data Catalog
  5. Désinstallation
  6. Dépannage
  7. Démarrage et arrêt des services d'Enterprise Data Catalog
  8. Supprimer l'accès sudo après la création d'un cluster incorporé
  9. Configurer un répertoire journal personnalisé pour Ambari
  10. Configurer Enterprise Data Catalog pour un cluster avec WANdisco Fusion activé
  11. Configurer Informatica Custom Service Descriptor
  12. Créer des utilisateurs et des groupes d'utilisateurs personnalisés pour les services déployés dans un cluster incorporé
  13. Configurer des ports personnalisés pour les applications Hadoop

Guide d'installation et de configuration d'Enterprise Data Catalog

Guide d'installation et de configuration d'Enterprise Data Catalog

Dépannage des problèmes courants de déploiement des clusters

Dépannage des problèmes courants de déploiement des clusters

Échec de l'ingestion avec le message d'erreur org.apache.zookeeper.KeeperException$AuthFailedException: KeeperErrorCode = AuthFailed.
Ajoutez les lignes suivantes au fichier /etc/krb5.conf pour tous les clusters :
  • [libdefaults]
  • kdc_timeout=60000
  • max_retries = 6
Échec de l'ingestion avec le message d'erreur org.apache.zookeeper.KeeperException$SessionExpiredException: KeeperErrorCode = Session expired.
Définissez les propriétés personnalisées suivantes pour le service de catalogue à l'aide d'Informatica Administrator :
  • LdmCustomOptions.hclient.hbase.client.scanner.timeout.period = 900000
  • LdmCustomOptions.hclient.hbase.rpc.timeout = 900000
  • LdmCustomOptions.zkclient.zookeeper.session.timeout = 90000
Échec de l'exécution de l'analyseur dans un cluster configuré pour la haute disponibilité.
Assurez-vous que tous les services de cluster tels que HDFS, YARN, ZooKeeper dans le cluster sont configurés pour la haute disponibilité.
Le compteur de connexions du client Apache Zookeeper est bas et le message d'erreur suivant s'affiche dans le fichier journal de Zookeeper : "Too many connections from /<ipaddress>- max is 60." Il est possible que vous rencontriez également des échecs du service d'ingestion avec le message d'erreur suivant dans les fichiers journaux : "Unexpected error, closing socket connection and attempting reconnect java.io.IOException: Connection reset by peer."
Apache Zookeeper est une application partagée et nécessite plusieurs connexions ouvertes et configurées. Remplacez la valeur du paramètre maxclientCnxns par la valeur recommandée en fonction de la charge du cluster et démarrez le cluster entier à nouveau.
Le service de catalogue ne parvient pas à démarrer après avoir redémarré le service de cluster Informatica.
Vous devez redémarrer manuellement le service de catalogue en même temps que le service de cluster Informatica.
Un des composants de cluster ne parvient pas à démarrer avec le message d'erreur suivant dans le fichier journal : "Caused by: java.lang.NumberFormatException: For input string: "0LdmCustomOptions.HbaseMasterProperties."
Ce problème peut se produire en raison de paramètres incorrects de propriétés personnalisées pour le service de catalogue, qui ont été configurés dans Informatica Administrator. Vérifiez que chaque propriété personnalisée à mettre à jour est définie en tant que paramètre LdmCustomOptions dans Informatica Administrator. Vous pouvez ensuite démarrer le service de catalogue à nouveau pour afficher le cluster.
Le service de catalogue ne parvient pas à répondre avec le message d'erreur suivant dans le fichier journal : "Connection timed out for connection string () and timeout () / elapsed () org.apache.curator.CuratorConnectionLossException: KeeperErrorCode = ConnectionLoss at org.apache.curator.ConnectionState.checkTimeouts(ConnectionState.java:197)". Il est possible que le fichier journal du client d'ingestion ou de HBase contienne le message d'erreur suivant : "Possibly transient ZooKeeper, quorum=…, exception=org.apache.zookeeper.KeeperException ConnectionLossException: KeeperErrorCode = ConnectionLoss for /hbase/meta-region-server."
Ce problème pourrait se produire en raison de l'incapacité du service de catalogue à accéder aux composants du cluster de base, tels qu'Apache Zookeeper. Les problèmes de Zookeeper peuvent se produire en raison de problèmes de disques temporaires. Corrigez les problèmes de disques et vérifiez qu'Apache Zookeeper est opérationnel.
Le fichier journal d'Apache Zookeeper affiche le message d'erreur suivant en raison de la latence de disque élevée : "fsync-ing the write ahead log in SyncThread:3 took 25115ms which will adversely affect operation latency."
Il est recommandé d'allouer un disque dédié, et non une partition de disque, à Apache Zookeeper, car il doit fournir des garanties de haute cohérence à son client. Vérifiez d'avoir alloué le nombre recommandé de disques durs pour la taille de la charge de travail. Vous devez également pointer le répertoire de données Zookeeper vers son disque dédié.
Certains des membres du quorum de l'ensemble Apache Zookeeper ne sont pas accessibles, et le fichier journal affiche les messages d'avertissement semblables au suivant : "[QuorumPeer[myid=3]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@383] - Cannot open channel to 2 at election address 10.65.144.18:3888 java.net.ConnectException: Connection refused at java.net.PlainSocketImpl.socketConnect(Native Method)"
Vérifiez que les hôtes Zookeeper sont accessibles sur le réseau. Il est important que la mémoire des membres du quorum Zookeeper soit suffisante. Vérifiez que les nœuds répondent aux prérequis recommandés de mémoire. Vérifiez que seuls les processus liés au service de catalogue sont exécutés sur le même hôte.
Plusieurs membres de quorum Apache Zookeeper affichent des messages de fin de session sur le client, tels que le suivant : "Caught end of stream exception EndOfStreamException: Unable to read additional data from client sessionid 0x0, likely client has closed socket, Processed session termination for sessionid."
Surveillez l'utilisation des segments de mémoire pour les membres du quorum Zookeeper. Vous pouvez envisager d'augmenter les segments de mémoire de Zookeeper et de démarrer le cluster entier à nouveau.
Le service d'ingestion ne parvient pas à démarrer, et le fichier journal affiche le message d'erreur suivant : "Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory".
Cette erreur indique une quantité insuffisante de mémoire ou de cœurs du processeur dans le cluster entier. Vérifiez que le cluster possède les ressources suffisantes pour lancer de nouvelles applications.
Le service de catalogue ne parvient pas à démarrer après avoir modifié la propriété personnalisée LdmCustomOptions.loadType dans Informatica Administrator et le fichier journal contient le message d'erreur suivant : "Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'hbaseGraphFactory': Invocation of init method failed; nested exception is com.thinkaurelius.titan.core.TitanConfigurationException: Local settings present for one or more globally managed options: [cluster.max-partitions]. These options are controlled through the ManagementSystem interface; local settings have no effect."
Vous devez sauvegarder toutes les données avant de modifier la propriété personnalisée du type de charge, modifier le paramètre du type de charge, démarrer le cluster à nouveau, puis charger les données sauvegardées.
Échec du service de catalogue ou du service d'ingestion en raison de l'indisponibilité de certaines tables de base de données HBase avec le message d'erreur suivant dans les fichiers journaux : "Caused by: com.thinkaurelius.titan.diskstorage.TemporaryBackendException: Temporary failure in storage backend at com.thinkaurelius.titan.diskstorage.hbase.HBaseStoreManager.ensureTableExists (HBaseStoreManager.java:754) Caused by: org.apache.hadoop.hbase.TableNotFoundException: ldmns:titan_db."
Cette erreur se produit en raison d'un nettoyage inapproprié des données relatives au service de catalogue ou au service d'ingestion. Si vous avez modifié le type de charge à l'aide de la propriété personnalisée LdmCustomOptions.loadType dans Informatica Administrator, vérifiez que vous avez sauvegardé toutes les données liées au service, supprimé entièrement les données, puis que vous les avez rechargées.
Échec du service de catalogue ou du service d'ingestion en raison de la présence de certaines tables de base de données HBase avec le message d'erreur suivant dans les fichiers journaux : "Caused by: org.apache.hadoop.hbase.ipc.RemoteWithExtrasException (org.apache.hadoop.hbase.TableExistsException): org.apache.hadoop.hbase.TableExistsException: ldmns:exDocStore at org.apache.hadoop.hbase.master.procedure.CreateTableProcedure.prepareCreate."
Cette erreur se produit en raison d'un nettoyage inapproprié des données relatives au service de catalogue ou au service d'ingestion. Si vous avez modifié le type de charge à l'aide de la propriété personnalisée LdmCustomOptions.loadType dans Informatica Administrator, vérifiez que vous avez sauvegardé toutes les données liées au service, supprimé entièrement les données, puis que vous les avez rechargées.
Échec du service de catalogue ou du service d'ingestion en raison de certaines tables de base de données HBase avec le message d'erreur suivant dans les fichiers journaux : "Caused by: org.apache.hadoop.hbase.TableNotEnabledException: ldmns:DataDomain_stage is disabled at org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.relocateRegion(HConnectionManager.java:1139)."
Cette erreur se produit en raison d'un nettoyage inapproprié des données relatives au service de catalogue ou au service d'ingestion. Si vous avez modifié le type de charge à l'aide de la propriété personnalisée LdmCustomOptions.loadType dans Informatica Administrator, vérifiez que vous avez sauvegardé toutes les données liées au service, supprimé entièrement les données, puis que vous les avez rechargées.
Échec du service de catalogue ou du service d'ingestion avec l'une des erreurs suivantes dans les fichiers journaux : le fichier journal HBase contient le message d'erreur "Caused by: com.thinkaurelius.titan.diskstorage.TemporaryBackendException: Temporary failure in storage backend Caused by: org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=4, exceptions: failed on local exception: java.io.IOException: Connection reset by peer This server is in the failed servers list." Il est possible que le fichier journal du service d'ingestion contienne le message d'erreur "Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 9468.0 failed 4 times, most recent failure: Lost task 0.3 in stage 9468.0 (TID 12018): org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=4, exceptions: This server is in the failed servers list."
L'erreur pourrait se produire lorsque le serveur HBase n'est pas accessible en raison de facteurs, tels que le partitionnement du réseau, l'indisponibilité du serveur de région HBase due à la charge de travail, ou de ses activités de nettoyage internes, telles que la répartition et les compactages de données. Vous pouvez essayer de redémarrer le service de catalogue avec une mémoire accrue pour HBase.
Il est possible que les serveurs HBase échouent si Apache Zookeeper ou HDFS n'est pas accessible. Le service de catalogue essaie de démarrer automatiquement les instances HBase jusqu'au nombre configuré de tentatives, sauf si l'erreur est fatale. Dans de tels cas, vous devrez peut-être redémarrer manuellement le service de catalogue.
L'application Apache YARN s'arrête par intermittence et les nœuds de cluster ne sont pas utilisés pour soumettre les applications de cluster. Le fichier journal du gestionnaire de ressource YARN contient le message d'erreur suivant : "Node irl66dsg04.xxx.com:8041 reported UNHEALTHY with details: 1/1 log-dirs are bad: /var/log/hadoop-yarn/container, Node Transitioned from RUNNING to UNHEALTHY, Container Transitioned from RUNNING to KILLED, Removed node irl66dsg04.xxx.com:8041 cluster capacity: <memory:184320, vCores:96>"
Vérifiez l'espace disque de / partition sur le disque dur en utilisant les commandes, telles que df. Apache YARN considère un nœud comme étant défectueux et termine les applications de nœud si l'utilisation de l'espace disque est supérieure à 80 %. Supprimez les données inutiles de la partition '/'. Si vous possédez plusieurs disques, pointez / partition sur un disque non chargé d'autres affectations.
Le serveur de la région HBase s'arrête avec un message d'erreur semblable au suivant dans le fichier journal : "Sleeper: Slept 15559ms instead of 3000ms, this is likely due to a long garbage collecting pause and it's usually bad. HeapMemoryManager: heapOccupancyPercent 0.9935025 is above heap occupancy alarm watermark (0.95). JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 3733ms. GC pool 'ParNew' had collection(s): count=1 time=4075ms."
Cette erreur se produit en raison de problèmes de mémoire HBase. Vérifiez que vous avez configuré le type approprié de charge de travail ou de jeu de données pour votre charge de travail d'Enterprise Data Catalog en utilisant la propriété personnalisée LdmCustomOptions.loadType dans Informatica Administrator. Parfois, vous devrez peut-être augmenter manuellement les paramètres des segments HBase à l'aide d'Informatica Administrator, puis redémarrer le service de catalogue.
Échec du service d'ingestion avec des problèmes de mémoire, et le fichier journal du service d'ingestion contient des messages d'erreur semblables au suivant : "TaskSetManager: Lost task 1.0 in stage 18.0 (TID 39, INVRLX65CMD03.informatica.com): org.apache.spark.util.TaskCompletionListenerException: GC overhead limit exceeded at org.apache.spark.TaskContextImpl.markTaskCompleted(TaskContextImpl.scala:83) at org.apache.spark.scheduler.Task.run(Task.scala:72)"
Cette erreur se produit en raison de la mémoire HBase réduite. Vérifiez que vous avez configuré le type approprié de charge de travail ou de jeu de données pour votre charge de travail d'Enterprise Data Catalog en utilisant la propriété personnalisée LdmCustomOptions.loadType dans Informatica Administrator. Dans certains cas, vous devrez peut-être augmenter manuellement les paramètres des segments HBase à l'aide d'Informatica Administrator, puis redémarrer le service de catalogue.
Échec du service d'ingestion avec le message d'erreur suivant dans le fichier journal : "ERROR executor.CoarseGrainedExecutorBackend: RECEIVED SIGNAL 15: SIGTERM spark.TaskContextImpl: Error in TaskCompletionListener java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java:761)"
Cette erreur indique que le système de fichiers Hadoop n'est pas accessible. Utilisez l'interface utilisateur d'Apache Ambari pour vérifier que HDFS est opérationnel.
Échec d'un nœud de données HDFS avec un message d'erreur semblable au suivant: " BlockStateChange: BLOCK NameSystem.addToCorruptReplicasMap: blk_1073876841 added as corrupt on 10.65.145.216:50010 by irlcmg07.informatica.com/10.65.145.216 because reported RWR replica with genstamp 136273 does not match COMPLETE block's genstamp in block map 138353."
Cette erreur se produit généralement dans un déploiement à nœud unique, car les données ne sont pas répliquées. Il est possible que le problème se produise en raison de la corruption de données dans certains blocs de données HDFS. La corruption de données peut se produire en raison d'un volume de disque ou d'un disque corrompu dont la mémoire est saturée.
Si vous possédez plus d'un répertoire de disque configuré pour HDFS, vous pouvez essayer de modifier la valeur de dfs.datanode.failed.volumes.tolerated à partir de 0. Une valeur de 0 entraîne l'arrêt du nœud de données, même avec un minimum d'un volume de disque qui contient des données corrompues.
Où puis-je trouver tous les fichiers journaux liés au service de cluster Informatica et comment puis-je les utiliser pour effectuer le dépannage ?
Vous pouvez trouver les détails des problèmes liés au service de cluster Informatica en procédant comme suit :
  1. Ouvrez et vérifiez le fichier journal du service de cluster Informatica à l'emplacement suivant : <Install Directory>/logs/<Infomatica Cluster Service Node Name>/services/InfaHadoopService/<Infomatica Cluster Service Name>.
  2. Ouvrez et vérifiez le fichier journal du serveur Apache Ambari sur l'hôte du serveur Ambari à l'emplacement suivant : /var/log/ambari-server
  3. Ouvrez et vérifiez le fichier journal de l'agent Apache Ambari sur l'hôte de l'agent Ambari à l'emplacement suivant : /var/log/ambari-agent.
  4. Si vous ne pouvez pas résoudre le problème en suivant les étapes précédentes, procédez comme suit :
    1. Lancez l'application Apache Ambari à l'aide de l'URL http://<ambari-server host>:8080/ .
    2. Cliquez sur ops en haut de l'application pour vérifier les demandes en échec :
    3. Enregistrez le nom de l'hôte sur lequel la demande a échoué et le composant Hadoop lié à la demande ayant échoué.
    4. Connectez-vous à l'hôte où la demande a échoué.
    5. Vérifiez le fichier journal du composant Hadoop spécifique lié à la demande ayant échoué aux emplacements suivants :
      Nom du composant Emplacement du fichier journal
      NameNode /var/log/hadoop/hdfs ou /var/log/hadoop-hdfs
      SecondaryNameNode /var/log/hadoop/hdfs ou /var/log/hadoop-hdfs
      JournalNode /var/log/hadoop/hdfs ou /var/log/hadoop-hdfs
      ZKFC /var/log/hadoop/hdfs ou /var/log/hadoop-hdfs
      DataNode /var/log/hadoop/hdfs ou /var/log/hadoop-hdfs
      HistoryServer /var/log/hadoop/mapreduce ou /var/log/hadoop-mapreduce
      MetricsCollector /var/log/ambari-metrics-collector
      MetricsMonitor /var/log/ambari-metrics-monitor
      AppTimelineServer /var/log/hadoop-yarn ou /var/log/hadoop/yarn
      ResourceManager /var/log/hadoop-yarn ou /var/log/hadoop/yarn
      NodeManager /var/log/hadoop-yarn ou /var/log/hadoop/yarn
      ZookeeperServer /var/log/zookeeper
      S'il existe des services Hadoop en cours d'exécution qui n'ont pas été arrêtés lorsque vous avez arrêté le service de cluster Informatica précédemment, il est possible que le texte java.net.BindException: Address already in use s'affiche dans le fichier journal. Vous devez alors arrêter ces processus sur les ports mentionnés dans l'exception.
Où puis-je trouver tous les fichiers journaux des applications Apache YARN, telles que Solr, HBase, et le service d'ingestion ?
Vous pouvez procéder comme suit pour afficher les fichiers journaux :
  1. Connectez-vous à l'interface utilisateur d'Apache Ambari, puis cliquez sur l'onglet Service en haut de la page pour ouvrir la page suivante :
  2. Cliquez sur Liens rapidesResourceManager UIpour ouvrir la page suivante qui répertorie toutes les applications :
    Vous pouvez afficher les différentes applications lancées par ce service de catalogue sur Apache YARN. La colonne État indique l'état actuel des applications.
  3. Cliquez sur le lien sous la colonne ID pour ouvrir la page suivante :
  4. Pour afficher le fichier journal, cliquez sur journaux.
Échec du service d'ingestion avec le message d'erreur suivant :
" java.io.IOException: Connection reset by peer." lors de l'exécution de tâches dans une séquence.
Ce problème se produit en raison du nombre limité de connexions du client Zookeeper autorisées pour Enterprise Data Catalog. Vous pouvez passer la valeur de connexion du client Zookeeper sur 0, ce qui indique un nombre illimité de connexions.
Échec de l'installation d'Apache Ambari lorsque le référentiel yum est configuré pour télécharger Apache Ambari depuis un répertoire personnalisé.
Ce problème se produit lorsque vous avez configuré un référentiel personnalisé pour télécharger Apache Ambari. Pour résoudre ce problème, assurez-vous d'avoir mis à jour les fichiers yum.conf et .repo dans le répertoire /etc/yum.repos.d/ pour pointer vers l'emplacement où se trouvent les fichiers d'installation d'Apache Ambari.
Une ressource PowerCenter ne peut pas se connecter au domaine Informatica activé pour SSL.
Ce problème se produit généralement lorsque vous n'importez pas le certificat de sécurité dans le truststore local. Vous pouvez importer le certificat de sécurité dans le truststore local pour résoudre ce problème.
Le service de catalogue ne peut pas être activé
Ce problème peut se produire si vous avez activé l'option Recevoir les alertes par e-mail pour le service de catalogue et si le service de messagerie est dans l'état désactivé. Assurez-vous d'avoir activé le service de messagerie.
Pour plus d'informations sur l'activation du service de messagerie, consultez le guide Administrator Reference for Enterprise Data Catalog.


Mis à jour May 17, 2019


Explore Informatica Network