Índice

Search

  1. Prólogo
  2. Introducción a la administración de TDM
  3. Administración de usuarios y funciones
  4. Administración de seguridad
  5. Preferencias del sistema
  6. Administración del servidor TDM
  7. Conexiones
  8. Frases de contraseña
  9. Parámetros globales
  10. Diccionarios
  11. Tipos de datos definidos por el usuario

Guía del administrador

Guía del administrador

Conexiones de Hive

Conexiones de Hive

Utilice la conexión de Hive para acceder a una base de datos de Hive. Una conexión de Hive es una conexión de tipo de base de datos. En la Herramienta del administrador, debe crear una configuración de clúster para los clústeres de Hadoop. Cree y administre conexione de Hive en Test Data Manager.
La siguiente tabla describe las propiedades de conexión de Hive:
Propiedad
Descripción
Nombre
Obligatorio. Nombre de la conexión. No se aplica la distinción entre mayúsculas y minúsculas al nombre, el cual debe ser único en el dominio. El nombre no puede superar los 128 caracteres, contener espacios ni contener los siguientes caracteres especiales:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
Cadena que utiliza el servicio de integración de datos para identificar la conexión. El ID no distingue entre mayúsculas y minúsculas. Debe tener 255 caracteres o menos y debe ser único en el dominio. No puede modificar esta propiedad después de crear la conexión. El valor predeterminado es el nombre de la conexión.
Tipo de conexión
Obligatorio. El tipo de conexión. Seleccione Hive.
Descripción
La descripción de la conexión. La descripción no puede tener más de 4 000 caracteres.
Utilice la autenticación Kerberos
Habilita la autenticación Kerberos en las conexiones de Hadoop.
Configuración de clúster
Nombre de usuario
El nombre de usuario del usuario que el servicio de integración de datos suplanta para ejecutar asignaciones en un clúster de Hadoop. El nombre de usuario depende de la cadena de conexión de JDBC que especifique en la cadena de conexión de metadatos o en la cadena de conexión de acceso a los datos del entorno nativo.
Si el clúster de Hadoop utiliza autenticación Kerberos, el nombre principal de la cadena de conexión de JDBC y el nombre de usuario deben coincidir. De lo contrario, el nombre de usuario dependerá del comportamiento del controlador JDBC. Con el controlador JDBC de Hive, puede especificar un nombre de usuario de varias formas y este puede ser una parte de la URL de JDBC.
Si el clúster de Hadoop no utiliza autenticación Kerberos, el nombre de usuario depende del comportamiento del controlador JDBC.
Si no especifica un nombre de usuario, el clúster de Hadoop autenticará trabajos según los siguientes criterios:
  • El clúster de Hadoop no utiliza autenticación Kerberos. Autentica trabajos según el nombre de usuario del perfil del sistema operativo del equipo que ejecuta el servicio de integración de datos.
  • El clúster de Hadoop utiliza autenticación Kerberos. Autentica trabajos según el SPN del servicio de integración de datos.
Contraseña
La contraseña del nombre de usuario de
SQL de entorno
Los comandos SQL para establecer el entorno de Hadoop. En el tipo de entorno nativo, el servicio de integración de datos ejecuta el SQL de entorno cada vez que crea una conexión a un metastore de Hive. Si la conexión de Hive se utiliza para ejecutar perfiles en un clúster de Hadoop, el servicio de integración de datos ejecuta el SQL de entorno al inicio de cada sesión de Hive.
Las siguientes reglas y directrices se aplican al uso del SQL de entorno en ambos modos de conexión:
  • Utilice el SQL de entorno para especificar consultas de Hive.
  • Utilice el SQL de entorno para definir la classpath de las funciones definidas por el usuario de Hive y, a continuación, use el SQL o PreSQL de entorno para especificar las funciones definidas por el usuario de Hive. No se puede usar PreSQL en las propiedades de objetos de datos para especificar la classpath. Si utiliza funciones de Hive definidas por el usuario, debe copiar los archivos .jar en el siguiente directorio:
    <DirectorioDeInstalaciónDeInformatica>/services/shared/hadoop/<nombre de la distribución de Hadoop>/extras/hive-auxjars
  • También puede usar el SQL de entorno para definir los parámetros de Hadoop o Hive que desea utilizar en los comandos PreSQL o en las consultas personalizadas.
  • Si utiliza varios valores en la propiedad SQL del entorno, procure que no haya espacios entre dichos valores.
Carácter de identificador SQL que se va a utilizar
El tipo de carácter que se utiliza para identificar caracteres especiales y palabras clave reservadas de SQL, como WHERE. El servicio de integración de datos coloca el carácter seleccionado alrededor de los caracteres especiales y de las palabras clave reservadas de SQL. El Servicio de integración de datos también utiliza este carácter para la propiedad
Compatibilidad con identificadores mixtos (mayúsculas/minúsculas)
.
Respetar autorización SQL específica
Cuando seleccione la opción para respetar la autorización específica en un origen de Hive, la asignación respeta lo siguiente:
  • Las restricciones a nivel de columna y fila. Se aplica a los clústeres de Hadoop donde estén habilitados los modos de seguridad Sentry o Ranger.
  • Reglas de enmascaramiento de datos. Se aplica a las reglas de enmascaramiento que se establecen en columnas que contienen datos confidenciales mediante Dynamic Data Masking.
Si no selecciona la opción, los motores de Blaze y Spark omitirán las restricciones y las reglas de enmascaramiento, y los resultados incluirán datos restringidos o confidenciales.
Nombre de clase de controlador de JDBC
El nombre de la clase del controlador de JDBC. Si deja esta opción en blanco, Developer tool utilizará el controlador JDBC predeterminado de Apache Hive incluido en la distribución. Si el controlador JDBC predeterminado de Apache Hive no se ajusta a sus requisitos, puede reemplazarlo por un controlador JDBC de terceros especificando el nombre de la clase del controlador.
Cadena de conexión de metadatos
El URI de la conexión de JDBC usado para acceder a los metadatos desde el servidor de Hadoop.
Puede utilizar PowerExchange for Hive para comunicarse con un servicio de HiveServer o HiveServer2. Para conectarse a HiveServer, especifique la cadena de conexión con el siguiente formato:
jdbc:hive2://<hostname>:<port>/<db>
Donde
  • <nombre de host> es el nombre o la dirección IP del equipo en el que se ejecuta HiveServer2.
  • <puerto> es el número de puerto en el que HiveServer2 escucha.
  • <db> es el nombre de la base de datos a la que desea conectarse. Si no especifica el nombre de la base de datos, el servicio de integración de datos utiliza los detalles de la base de datos predeterminada.
Para conectarse a HiveServer2, utilice el formato de cadena de conexión que Apache Hive implementa para esa distribución de Hadoop determinada. Para obtener más información acerca de los formatos de cadena de conexión de Apache Hive, consulte la documentación de Apache Hive.
Para la suplantación de usuarios, debe agregar
hive.server2.proxy.user=<xyz>
al URI de conexión de JDBC. Si no configura la suplantación de usuarios, se utilizan las credenciales del usuario actual para conectarse a HiveServer2.
Si el clúster de Hadoop utiliza la autenticación SSL o TLS, debe agregar
ssl=true
al URI de la conexión de JDBC. Por ejemplo:
jdbc:hive2://<hostname>:<port>/<db>;ssl=true
Si utiliza un certificado autofirmado para la autenticación SSL o TLS, asegúrese de que el archivo del certificado esté disponible en la máquina del cliente y en la máquina del servicio de integración de datos. Para obtener más información, consulte la
Guía de Data Engineering Integration
.
Omitir el servidor JDBC Hive
Un modo de controlador JDBC. Active la casilla de verificación para usar el modo de controlador de JDBC integrado.
Para utilizar el modo incrustado de JDBC, realice las tareas siguientes:
  • Compruebe que el cliente de Hive y los servicios de Informatica están instalados en el mismo equipo.
  • Configure las propiedades de conexión de Hive para que las asignaciones se ejecuten en un clúster de Hadoop.
Si selecciona el modo no incrustado, debe configurar la cadena de conexión de acceso a los datos.
Informatica recomienda utilizar el modo de JDBC integrado.
Cadena de conexión de acceso a los datos
La cadena de conexión para acceder a los datos desde el almacén de datos de Hadoop. Para conectarse a HiveServer, especifique la cadena de conexión del modo no incrustado de JDBC con el siguiente formato:
jdbc:hive2://<hostname>:<port>/<db>
Donde
  • <nombre de host> es el nombre o la dirección IP del equipo en el que se ejecuta HiveServer2.
  • <puerto> es el número de puerto en el que HiveServer2 escucha.
  • <db> es la base de datos a la que desea conectarse. Si no especifica el nombre de la base de datos, el servicio de integración de datos utiliza los detalles de la base de datos predeterminada.
Para conectarse a HiveServer2, utilice el formato de cadena de conexión que Apache Hive implementa para la distribución de Hadoop determinada. Para obtener más información acerca de los formatos de cadena de conexión de Apache Hive, consulte la documentación de Apache Hive.
Para la suplantación de usuarios, debe agregar
hive.server2.proxy.user=<xyz>
al URI de conexión de JDBC. Si no configura la suplantación de usuarios, se utilizan las credenciales del usuario actual para conectarse a HiveServer2.
Si el clúster de Hadoop utiliza la autenticación SSL o TLS, debe agregar
ssl=true
al URI de la conexión de JDBC. Por ejemplo:
jdbc:hive2://<hostname>:<port>/<db>;ssl=true
Si utiliza un certificado autofirmado para la autenticación SSL o TLS, asegúrese de que el archivo del certificado esté disponible en la máquina del cliente y en la máquina del servicio de integración de datos. Para obtener más información, consulte la
Guía de Data Engineering Integration
.