Guía del administrador

10.5.6
- 10.5.3
- 10.5.2
- 10.5.1
- 10.5
- 10.4.1
- 10.4.0

Anterior Siguiente

Conexiones de Hadoop

Una conexión de Hadoop es una conexión de tipo clúster. En la Herramienta del administrador, debe crear una configuración de clúster para los clústeres de Hadoop. Cree y administre conexiones de Hadoop desde Test Data Manager.

Cuando se selecciona la conexión de Hadoop en un plan Hadoop, TDM utiliza el servicio de integración de datos para ejecutar asignaciones en un clúster de Hadoop.

En la siguiente tabla se describen las propiedades de conexión de Hadoop:

Propiedad	Descripción
Nombre	Obligatorio. Nombre de la conexión. No se aplica la distinción entre mayúsculas y minúsculas al nombre, el cual debe ser único en el dominio. El nombre no puede superar los 128 caracteres, contener espacios ni contener los siguientes caracteres especiales: ~ ` ! $ % ^ & * ( ) - + = { [ } ] \| \ : ; " ' < , > . ? /
ID	Cadena que utiliza el servicio de integración de datos para identificar la conexión. El ID no distingue entre mayúsculas y minúsculas. Debe tener 255 caracteres o menos y debe ser único en el dominio. No puede modificar esta propiedad después de crear la conexión. El valor predeterminado es el nombre de la conexión.
Tipo de conexión	Obligatorio. El tipo de conexión. Seleccione Hadoop.
Descripción	La descripción de la conexión. La descripción no puede tener más de 4 000 caracteres.
Utilice la autenticación Kerberos	Habilita la autenticación Kerberos en las conexiones de Hadoop.

Propiedades de Hadoop

En la tabla siguiente se describen las propiedades de clúster y conexión que se configuran para Hadoop:

Propiedad	Descripción
Configuración de clúster	El nombre del objeto de configuración del clúster asociado al entorno de Hadoop.
Conexión de aprovisionamiento de nube	Nombre de la configuración de aprovisionamiento de nube asociada a una plataforma de nube como Amazon AWS o Microsoft Azure. Es necesario si no configura la configuración del clúster.
Variable de entorno de clúster	Las variables de entorno utilizadas en el clúster. Especifique las variables de entorno personalizadas en la conexión de Hadoop. Durante el tiempo de ejecución, las variables de entorno especificadas se combinarán con las variables de entorno predeterminadas según la configuración del clúster asociada a la conexión de Hadoop. Por ejemplo, puede especificar ORACLE_HOME, ODBCHOME o DB2_HOME.
Ruta de acceso a la biblioteca de clúster	La ruta de acceso a las bibliotecas compartidas del clúster. La variable $DEFAULT _CLUSTER_LIBRARY_PATH contiene una lista de directorios predeterminados.
Ruta de clase de clúster	La classpath para acceder a los archivos jar de Hadoop y a las bibliotecas necesarias. La variable $DEFAULT _CLUSTER_CLASSPATH contiene una lista de rutas de acceso a las bibliotecas y archivos jar predeterminados.
Ruta ejecutable de clúster	La classpath para acceder a los archivos jar de Hadoop y a las bibliotecas necesarias. La variable $DEFAULT _CLUSTER_CLASSPATH contiene una lista de rutas de acceso a las bibliotecas y archivos jar predeterminados.
Nombre de usuario de suplantación	Obligatorio si el clúster Hadoop utiliza la autenticación Kerberos. Usuario de suplantación de Hadoop. El nombre de usuario que suplanta el servicio de integración de datos para ejecutar asignaciones en el entorno Hadoop. El servicio de integración de datos ejecuta asignaciones basadas en el usuario configurado. Consulte el orden siguiente para determinar qué usuario utiliza los servicios de integración de datos para ejecutar asignaciones: Usuario del perfil del sistema operativo. La asignación se ejecuta con el usuario del perfil del sistema operativo si el usuario del perfil está configurado. Si no hay un usuario del perfil del sistema operativo, la asignación se ejecuta con el usuario de suplantación de Hadoop. Usuario de suplantación de Hadoop. La asignación se ejecuta con el usuario de suplantación de Hadoop si el usuario del perfil del sistema operativo no está configurado. Si el usuario de suplantación de Hadoop no está configurado, el servicio de integración de datos ejecuta las asignaciones con el usuario del servicio de integración de datos. Usuario de servicios de Informatica. La asignación se ejecuta con el usuario operativo que inicia el daemon de Informatica si el usuario del perfil del sistema operativo y el usuario de suplantación de Hadoop no están configurados.
Códec de compresión de la tabla temporal	Biblioteca de compresión de Hadoop para el nombre de clase de un códec de compresión. El motor de Spark no admite ajustes de compresión para tablas temporales. Cuando se ejecutan asignaciones en el motor de Spark, este almacena las tablas temporales en un formato de archivo sin comprimir.
Nombre de clase de códec	Nombre de clase de códec que habilita la compresión de datos y optimiza el rendimiento en tablas temporales de transferencia provisional.
Nombre de la base de datos de transferencia provisional de Hive	Espacio de nombres para tablas de ensayo de Hive. Utilice el nombre predeterminado para tablas que no tienen un nombre de base de datos especificado. Si no configura un espacio de nombres, el servicio de integración de datos utiliza el nombre de base de datos de Hive en la conexión de destino de Hive para crear tablas de transferencia provisional.
Propiedades personalizadas del motor de Hadoop	Propiedades personalizadas exclusivas de la conexión de Hadoop. Puede especificar varias propiedades. Haga clic en el botón Añadir para añadir el número de filas requerido. Especifique el nombre de la propiedad en el campo Nombre y el valor en el campo Valor . Si hay más de una conexión Hadoop asociada a la misma configuración de clúster, puede reemplazar los valores de la propiedad del conjunto de configuración. Utilice las propiedades personalizadas de Informatica solo si se lo solicita el servicio de atención al cliente global de Informatica.
Escribir archivos de rechazo en Hadoop	Si utiliza el motor de Blaze para ejecutar asignaciones, active la casilla de verificación para especificar una ubicación a la cual mover los archivos de rechazo. Si se activa, el servicio de integración de datos desplaza los archivos de rechazo a la ubicación de HDFS listada en la propiedad, el directorio de archivos de rechazo. De forma predeterminada, el servicio de integración de datos almacena los archivos de rechazo sobre la base del parámetro del sistema RejectDir.
Directorio de archivos de rechazo	El directorio de los archivos de asignación de Hadoop en HDFS cuando se ejecutan asignaciones.

Configuración de Hive

A partir de la versión 10.2.2, Informatica ya no ofrece compatibilidad con el motor de Hive. No configure las propiedades relacionadas con el motor de Hive.

Puede utilizar los valores de las propiedades de configuración de Hive desde hive-site.xml o mapred-site.xml ubicados en el siguiente directorio del clúster de Hadoop:

/etc/hadoop/conf/

En la tabla siguiente se describen las propiedades de conexión que se configuran para insertar la lógica de asignación en el clúster de Hadoop:

Propiedad	Descripción
SQL de entorno	Los comandos SQL para establecer el entorno de Hadoop. El servicio de integración de datos ejecuta los comandos SQL de configuración de entorno al principio de cada script generado en un plan de ejecución de Hive. El uso de comandos SQL de entorno se rige por las siguientes reglas y directrices: Utilice el SQL de entorno para especificar consultas de Hive. Utilice el SQL de entorno para definir la classpath de las funciones definidas por el usuario de Hive y, a continuación, use el SQL o PreSQL de entorno para especificar las funciones definidas por el usuario de Hive. No se puede usar PreSQL en las propiedades de objetos de datos para especificar la classpath. La ruta de acceso debe ser la ruta de acceso totalmente cualificada a los archivos JAR utilizada para las funciones definidas por el usuario. Establezca el parámetro hive.aux.jars.path con todas las entradas de infapdo.aux.jars.path y la ruta de acceso a los archivos JAR para las funciones definidas por el usuario. También puede usar el SQL de entorno para definir los parámetros de Hadoop o Hive que desea utilizar en los comandos PreSQL o en las consultas personalizadas. Si utiliza varios valores para el entorno SQL, procure que no haya espacios entre dichos valores.
Directorio de almacén Hive en HDFS	Obligatorio. La ruta de acceso absoluta al archivo HDFS de la base de datos predeterminada para el almacén que es local en el clúster. Si no configura el directorio de almacén Hive, el motor de Hive intentará escribir primero en el directorio especificado en la propiedad de configuración del clúster hive.metastore.warehouse.dir . Si la configuración del clúster no tiene la propiedad, el motor de Hive escribirá en el directorio predeterminado /user/hive/warehouse .
Cadena de conexión de JDBC de Hive	El URI de JDBC para conectarse al servidor de Hive. Para conectarse a HiveServer, especifique la cadena de conexión con el siguiente formato: jdbc:hive2://<nombredehost>:<puerto>/<db> Donde <nombre de host> es el nombre o la dirección IP del equipo en el que se ejecuta HiveServer2. <puerto> es el número de puerto en el que HiveServer2 escucha. <db> es el nombre de la base de datos a la que desea conectarse. Si no especifica el nombre de la base de datos, el servicio de integración de datos utiliza los detalles de la base de datos predeterminada.
Tipo de motor	El motor que usa el entorno Hadoop para ejecutar una asignación en el clúster de Hadoop. Puede elegir MRv2 o Tez. Puede seleccionar Tez si está configurado para el clúster de Hadoop. El valor predeterminado es MRv2.
Propiedades personalizadas del motor Hive	Propiedades personalizadas exclusivas de la conexión de Hive. Puede especificar varias propiedades. Haga clic en el botón Añadir para añadir el número de filas requerido. Especifique el nombre de la propiedad en el campo Nombre y el valor en el campo Valor . Si hay más de una conexión de Hive asociada a la misma configuración de clúster, puede reemplazar los valores de la propiedad del conjunto de configuración. Utilice las propiedades personalizadas de Informatica solo si se lo solicita el servicio de atención al cliente global de Informatica.

Motor de Blaze

En la tabla siguiente se describen las propiedades de conexión que se configuran para el motor de Blaze:

Propiedad	Descripción
Directorio de transferencia provisional de Blaze	La ruta de archivo HDFS del directorio que usa el motor Blaze para almacenar archivos temporales. Asegúrese de que el directorio exista. El usuario de YARN, el usuario del motor Blaze y la suplantación de usuario de la asignación deben tener permiso de escritura en este directorio. El valor predeterminado es /blaze/workdir . Si se borra esta propiedad, los archivos de transferencia provisional se escriben en el directorio de transferencia provisional de Hadoop /tmp/blaze_<nombre de usuario> .
Nombre de usuario del servicio de Blaze	El nombre de usuario del perfil del sistema operativo para el motor de Blaze.
Puerto mínimo	El valor mínimo del intervalo de números de puerto para el motor de Blaze. El valor predeterminado es 12300.
Puerto máximo	El valor máximo del intervalo de números de puerto para el motor de Blaze. El valor predeterminado es 12600.
Nombre de cola de YARN	El nombre de la cola del programador YARN utilizada por el motor de Blaze que especifica los recursos disponibles en un clúster.
Dirección del supervisor de trabajos de Blaze	El nombre de host y el número de puerto del supervisor de trabajos de Blaze. Use el siguiente formato: <nombre de host>:<puerto> Donde <nombre de host> es el nombre de host o la dirección IP del servidor del supervisor de trabajo de Blaze. <puerto> es el puerto en el que el supervisor de trabajo de Blaze escucha las llamadas a procedimientos remotos (RPC). Por ejemplo, escriba: myhostname:9080
Expresión de etiqueta del nodo de Yarn de Blaze	La etiqueta de nodo que determina el nodo del clúster de Hadoop donde se ejecuta el motor de Blaze. Si no se especifica una etiqueta de nodo, el motor de Blaze se ejecutará en los nodos de la partición predeterminada. Si el clúster de Hadoop admite operadores lógicos para etiquetas de nodo, puede especificar una lista de etiquetas de nodo. Para enumerar las etiquetas de nodo, utilice los operadores && (AND), \|\| (OR) y ! (NOT).
Propiedades personalizadas del servicio de Blaze	Propiedades personalizadas que son exclusivas del motor de Blaze. Haga clic en el botón Añadir para añadir el número de filas requerido. Especifique el nombre de la propiedad en el campo Nombre y el valor en el campo Valor . Utilice las propiedades personalizadas de Informatica solo si se lo solicita el servicio de atención al cliente global de Informatica.

Motor de Spark

En la tabla siguiente se describen las propiedades de conexión que se configuran para el motor de Spark:

Propiedad	Descripción
Directorio de almacenamiento provisional de Spark	La ruta de acceso del archivo HDFS del directorio que utiliza el motor de Spark para almacenar archivos temporales para ejecutar trabajos. El usuario de YARN, el usuario del servicio de integración de datos y el usuario de suplantación de asignaciones deben tener permiso de escritura sobre este directorio. De forma predeterminada, los archivos temporales se escriben en el directorio de transferencia provisional de Hadoop /tmp/spark_<nombre de usuario> .
Directorio de registro de eventos de Spark	Opcional. La ruta de acceso a los archivos de HDFS del directorio que utiliza el motor de Spark para registrar eventos.
Nombre de cola de YARN	El nombre de cola del programador de YARN que utiliza el motor de Spark que especifica cuáles son los recursos disponibles en un clúster. El nombre distingue entre mayúsculas y minúsculas.
Parámetros de ejecución de Spark	Una lista opcional de parámetros de configuración para aplicar al motor Spark. Puede cambiar los valores predeterminados de las propiedades de configuración de Spark, tales como spark.executor.memory o spark.driver.cores . Haga clic en el botón Añadir para añadir el número de filas requerido. Especifique el nombre de la propiedad en el campo Nombre y el valor en el campo Valor . Es posible que detecte un empeoramiento del rendimiento del motor de Spark. Para optimizar el rendimiento, configure las siguientes propiedades de configuración del motor de Spark: spark.executor.cores Indica el número de núcleos que utiliza cada proceso de ejecutor para ejecutar los tasklets en el motor de Spark. Establezca el valor en spark.executor.cores=1 spark.executor.instances Indica el número de instancias que utiliza cada proceso de ejecutor para ejecutar los tasklets en el motor de Spark. Establezca el valor en: spark.executor.cores=1