Índice

Search

  1. Prólogo
  2. Introducción a la administración de TDM
  3. Administración de usuarios y funciones
  4. Administración de seguridad
  5. Preferencias del sistema
  6. Administración del servidor TDM
  7. Conexiones
  8. Frases de contraseña
  9. Parámetros globales
  10. Diccionarios
  11. Tipos de datos definidos por el usuario

Guía del administrador

Guía del administrador

Conexiones de Hadoop

Conexiones de Hadoop

Una conexión de Hadoop es una conexión de tipo clúster. En la Herramienta del administrador, debe crear una configuración de clúster para los clústeres de Hadoop. Cree y administre conexiones de Hadoop desde Test Data Manager.
Cuando se selecciona la conexión de Hadoop en un plan Hadoop, TDM utiliza el servicio de integración de datos para ejecutar asignaciones en un clúster de Hadoop.
En la siguiente tabla se describen las propiedades de conexión de Hadoop:
Propiedad
Descripción
Nombre
Obligatorio. Nombre de la conexión. No se aplica la distinción entre mayúsculas y minúsculas al nombre, el cual debe ser único en el dominio. El nombre no puede superar los 128 caracteres, contener espacios ni contener los siguientes caracteres especiales:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
Cadena que utiliza el servicio de integración de datos para identificar la conexión. El ID no distingue entre mayúsculas y minúsculas. Debe tener 255 caracteres o menos y debe ser único en el dominio. No puede modificar esta propiedad después de crear la conexión. El valor predeterminado es el nombre de la conexión.
Tipo de conexión
Obligatorio. El tipo de conexión. Seleccione Hadoop.
Descripción
La descripción de la conexión. La descripción no puede tener más de 4 000 caracteres.
Utilice la autenticación Kerberos
Habilita la autenticación Kerberos en las conexiones de Hadoop.

Propiedades de Hadoop

En la tabla siguiente se describen las propiedades de clúster y conexión que se configuran para Hadoop:
Propiedad
Descripción
Configuración de clúster
El nombre del objeto de configuración del clúster asociado al entorno de Hadoop.
Conexión de aprovisionamiento de nube
Nombre de la configuración de aprovisionamiento de nube asociada a una plataforma de nube como Amazon AWS o Microsoft Azure.
Es necesario si no configura la configuración del clúster.
Variable de entorno de clúster
Las variables de entorno utilizadas en el clúster.
Especifique las variables de entorno personalizadas en la conexión de Hadoop. Durante el tiempo de ejecución, las variables de entorno especificadas se combinarán con las variables de entorno predeterminadas según la configuración del clúster asociada a la conexión de Hadoop.
Por ejemplo, puede especificar ORACLE_HOME, ODBCHOME o DB2_HOME.
Ruta de acceso a la biblioteca de clúster
La ruta de acceso a las bibliotecas compartidas del clúster.
La variable $DEFAULT _CLUSTER_LIBRARY_PATH contiene una lista de directorios predeterminados.
Ruta de clase de clúster
La classpath para acceder a los archivos jar de Hadoop y a las bibliotecas necesarias.
La variable $DEFAULT _CLUSTER_CLASSPATH contiene una lista de rutas de acceso a las bibliotecas y archivos jar predeterminados.
Ruta ejecutable de clúster
La classpath para acceder a los archivos jar de Hadoop y a las bibliotecas necesarias.
La variable $DEFAULT _CLUSTER_CLASSPATH contiene una lista de rutas de acceso a las bibliotecas y archivos jar predeterminados.
Nombre de usuario de suplantación
Obligatorio si el clúster Hadoop utiliza la autenticación Kerberos. Usuario de suplantación de Hadoop. El nombre de usuario que suplanta el servicio de integración de datos para ejecutar asignaciones en el entorno Hadoop.
El servicio de integración de datos ejecuta asignaciones basadas en el usuario configurado. Consulte el orden siguiente para determinar qué usuario utiliza los servicios de integración de datos para ejecutar asignaciones:
  1. Usuario del perfil del sistema operativo. La asignación se ejecuta con el usuario del perfil del sistema operativo si el usuario del perfil está configurado. Si no hay un usuario del perfil del sistema operativo, la asignación se ejecuta con el usuario de suplantación de Hadoop.
  2. Usuario de suplantación de Hadoop. La asignación se ejecuta con el usuario de suplantación de Hadoop si el usuario del perfil del sistema operativo no está configurado. Si el usuario de suplantación de Hadoop no está configurado, el servicio de integración de datos ejecuta las asignaciones con el usuario del servicio de integración de datos.
  3. Usuario de servicios de Informatica. La asignación se ejecuta con el usuario operativo que inicia el daemon de Informatica si el usuario del perfil del sistema operativo y el usuario de suplantación de Hadoop no están configurados.
Códec de compresión de la tabla temporal
Biblioteca de compresión de Hadoop para el nombre de clase de un códec de compresión.
El motor de Spark no admite ajustes de compresión para tablas temporales. Cuando se ejecutan asignaciones en el motor de Spark, este almacena las tablas temporales en un formato de archivo sin comprimir.
Nombre de clase de códec
Nombre de clase de códec que habilita la compresión de datos y optimiza el rendimiento en tablas temporales de transferencia provisional.
Nombre de la base de datos de transferencia provisional de Hive
Espacio de nombres para tablas de ensayo de Hive. Utilice el nombre predeterminado para tablas que no tienen un nombre de base de datos especificado.
Si no configura un espacio de nombres, el servicio de integración de datos utiliza el nombre de base de datos de Hive en la conexión de destino de Hive para crear tablas de transferencia provisional.
Propiedades personalizadas del motor de Hadoop
Propiedades personalizadas exclusivas de la conexión de Hadoop. Puede especificar varias propiedades.
Haga clic en el botón
Añadir
para añadir el número de filas requerido. Especifique el nombre de la propiedad en el campo
Nombre
y el valor en el campo
Valor
.
Si hay más de una conexión Hadoop asociada a la misma configuración de clúster, puede reemplazar los valores de la propiedad del conjunto de configuración.
Utilice las propiedades personalizadas de Informatica solo si se lo solicita el servicio de atención al cliente global de Informatica.
Escribir archivos de rechazo en Hadoop
Si utiliza el motor de Blaze para ejecutar asignaciones, active la casilla de verificación para especificar una ubicación a la cual mover los archivos de rechazo. Si se activa, el servicio de integración de datos desplaza los archivos de rechazo a la ubicación de HDFS listada en la propiedad, el directorio de archivos de rechazo.
De forma predeterminada, el servicio de integración de datos almacena los archivos de rechazo sobre la base del parámetro del sistema RejectDir.
Directorio de archivos de rechazo
El directorio de los archivos de asignación de Hadoop en HDFS cuando se ejecutan asignaciones.

Configuración de Hive

A partir de la versión 10.2.2, Informatica ya no ofrece compatibilidad con el motor de Hive. No configure las propiedades relacionadas con el motor de Hive.
Puede utilizar los valores de las propiedades de configuración de Hive desde hive-site.xml o mapred-site.xml ubicados en el siguiente directorio del clúster de Hadoop:
/etc/hadoop/conf/
.
En la tabla siguiente se describen las propiedades de conexión que se configuran para insertar la lógica de asignación en el clúster de Hadoop:
Propiedad
Descripción
SQL de entorno
Los comandos SQL para establecer el entorno de Hadoop. El servicio de integración de datos ejecuta los comandos SQL de configuración de entorno al principio de cada script generado en un plan de ejecución de Hive.
El uso de comandos SQL de entorno se rige por las siguientes reglas y directrices:
  • Utilice el SQL de entorno para especificar consultas de Hive.
  • Utilice el SQL de entorno para definir la classpath de las funciones definidas por el usuario de Hive y, a continuación, use el SQL o PreSQL de entorno para especificar las funciones definidas por el usuario de Hive. No se puede usar PreSQL en las propiedades de objetos de datos para especificar la classpath. La ruta de acceso debe ser la ruta de acceso totalmente cualificada a los archivos JAR utilizada para las funciones definidas por el usuario. Establezca el parámetro
    hive.aux.jars.path
    con todas las entradas de
    infapdo.aux.jars.path
    y la ruta de acceso a los archivos JAR para las funciones definidas por el usuario.
  • También puede usar el SQL de entorno para definir los parámetros de Hadoop o Hive que desea utilizar en los comandos PreSQL o en las consultas personalizadas.
  • Si utiliza varios valores para el entorno SQL, procure que no haya espacios entre dichos valores.
Directorio de almacén Hive en HDFS
Obligatorio. La ruta de acceso absoluta al archivo HDFS de la base de datos predeterminada para el almacén que es local en el clúster.
Si no configura el directorio de almacén Hive, el motor de Hive intentará escribir primero en el directorio especificado en la propiedad de configuración del clúster
hive.metastore.warehouse.dir
. Si la configuración del clúster no tiene la propiedad, el motor de Hive escribirá en el directorio predeterminado
/user/hive/warehouse
.
Cadena de conexión de JDBC de Hive
El URI de JDBC para conectarse al servidor de Hive.
Para conectarse a HiveServer, especifique la cadena de conexión con el siguiente formato:
jdbc:hive2://<nombredehost>:<puerto>/<db>
Donde
  • <nombre de host> es el nombre o la dirección IP del equipo en el que se ejecuta HiveServer2.
  • <puerto> es el número de puerto en el que HiveServer2 escucha.
  • <db> es el nombre de la base de datos a la que desea conectarse. Si no especifica el nombre de la base de datos, el servicio de integración de datos utiliza los detalles de la base de datos predeterminada.
Tipo de motor
El motor que usa el entorno Hadoop para ejecutar una asignación en el clúster de Hadoop. Puede elegir MRv2 o Tez. Puede seleccionar Tez si está configurado para el clúster de Hadoop. El valor predeterminado es MRv2.
Propiedades personalizadas del motor Hive
Propiedades personalizadas exclusivas de la conexión de Hive.
Puede especificar varias propiedades.
Haga clic en el botón
Añadir
para añadir el número de filas requerido. Especifique el nombre de la propiedad en el campo
Nombre
y el valor en el campo
Valor
.
Si hay más de una conexión de Hive asociada a la misma configuración de clúster, puede reemplazar los valores de la propiedad del conjunto de configuración.
Utilice las propiedades personalizadas de Informatica solo si se lo solicita el servicio de atención al cliente global de Informatica.

Motor de Blaze

En la tabla siguiente se describen las propiedades de conexión que se configuran para el motor de Blaze:
Propiedad
Descripción
Directorio de transferencia provisional de Blaze
La ruta de archivo HDFS del directorio que usa el motor Blaze para almacenar archivos temporales. Asegúrese de que el directorio exista. El usuario de YARN, el usuario del motor Blaze y la suplantación de usuario de la asignación deben tener permiso de escritura en este directorio.
El valor predeterminado es
/blaze/workdir
. Si se borra esta propiedad, los archivos de transferencia provisional se escriben en el directorio de transferencia provisional de Hadoop
/tmp/blaze_<nombre de usuario>
.
Nombre de usuario del servicio de Blaze
El nombre de usuario del perfil del sistema operativo para el motor de Blaze.
Puerto mínimo
El valor mínimo del intervalo de números de puerto para el motor de Blaze. El valor predeterminado es 12300.
Puerto máximo
El valor máximo del intervalo de números de puerto para el motor de Blaze. El valor predeterminado es 12600.
Nombre de cola de YARN
El nombre de la cola del programador YARN utilizada por el motor de Blaze que especifica los recursos disponibles en un clúster.
Dirección del supervisor de trabajos de Blaze
El nombre de host y el número de puerto del supervisor de trabajos de Blaze. Use el siguiente formato:
<nombre de host>:<puerto>
Donde
  • <nombre de host> es el nombre de host o la dirección IP del servidor del supervisor de trabajo de Blaze.
  • <puerto> es el puerto en el que el supervisor de trabajo de Blaze escucha las llamadas a procedimientos remotos (RPC).
Por ejemplo, escriba:
myhostname:9080
Expresión de etiqueta del nodo de Yarn de Blaze
La etiqueta de nodo que determina el nodo del clúster de Hadoop donde se ejecuta el motor de Blaze. Si no se especifica una etiqueta de nodo, el motor de Blaze se ejecutará en los nodos de la partición predeterminada.
Si el clúster de Hadoop admite operadores lógicos para etiquetas de nodo, puede especificar una lista de etiquetas de nodo. Para enumerar las etiquetas de nodo, utilice los operadores
&&
(AND),
||
(OR) y
!
(NOT).
Propiedades personalizadas del servicio de Blaze
Propiedades personalizadas que son exclusivas del motor de Blaze.
Haga clic en el botón
Añadir
para añadir el número de filas requerido. Especifique el nombre de la propiedad en el campo
Nombre
y el valor en el campo
Valor
.
Utilice las propiedades personalizadas de Informatica solo si se lo solicita el servicio de atención al cliente global de Informatica.

Motor de Spark

En la tabla siguiente se describen las propiedades de conexión que se configuran para el motor de Spark:
Propiedad
Descripción
Directorio de almacenamiento provisional de Spark
La ruta de acceso del archivo HDFS del directorio que utiliza el motor de Spark para almacenar archivos temporales para ejecutar trabajos. El usuario de YARN, el usuario del servicio de integración de datos y el usuario de suplantación de asignaciones deben tener permiso de escritura sobre este directorio.
De forma predeterminada, los archivos temporales se escriben en el directorio de transferencia provisional de Hadoop
/tmp/spark_<nombre de usuario>
.
Directorio de registro de eventos de Spark
Opcional. La ruta de acceso a los archivos de HDFS del directorio que utiliza el motor de Spark para registrar eventos.
Nombre de cola de YARN
El nombre de cola del programador de YARN que utiliza el motor de Spark que especifica cuáles son los recursos disponibles en un clúster. El nombre distingue entre mayúsculas y minúsculas.
Parámetros de ejecución de Spark
Una lista opcional de parámetros de configuración para aplicar al motor Spark. Puede cambiar los valores predeterminados de las propiedades de configuración de Spark, tales como
spark.executor.memory
o
spark.driver.cores
.
Haga clic en el botón
Añadir
para añadir el número de filas requerido. Especifique el nombre de la propiedad en el campo
Nombre
y el valor en el campo
Valor
.
Es posible que detecte un empeoramiento del rendimiento del motor de Spark.
Para optimizar el rendimiento, configure las siguientes propiedades de configuración del motor de Spark:
spark.executor.cores
Indica el número de núcleos que utiliza cada proceso de ejecutor para ejecutar los tasklets en el motor de Spark.
Establezca el valor en
spark.executor.cores=1
spark.executor.instances
Indica el número de instancias que utiliza cada proceso de ejecutor para ejecutar los tasklets en el motor de Spark.
Establezca el valor en:
spark.executor.cores=1