Índice

Search

  1. Prólogo
  2. Informatica Developer
  3. El repositorio de modelos
  4. Búsquedas en Informatica Developer
  5. Conexiones
  6. Objetos de datos físicos
  7. Objetos de datos de archivo sin formato
  8. Vista lógica de datos
  9. Cómo visualizar datos
  10. Implementación de aplicaciones
  11. Implementación de revisiones de la aplicación
  12. Implementación de revisiones de la aplicación Ejemplo
  13. Integración continua y entrega continua (CI/CD)
  14. Importación y exportación de objetos
  15. Apéndice A: Referencia de tipos de datos
  16. Apéndice B: Accesos directos del teclado
  17. Apéndice C: Propiedades de conexión

Guía de Developer Tool

Guía de Developer Tool

Propiedades de conexión de Hive

Propiedades de conexión de Hive

Use la conexión de Hive para acceder a datos de Hive. Una conexión de Hive es una conexión de tipo de base de datos. Puede crear y administrar una conexión de Hive en la Herramienta del administrador, la Herramienta del analista o Developer tool. Las propiedades de conexión de Hive distinguen mayúsculas de minúsculas a menos que se indique lo contrario.
El orden de las propiedades de conexión puede variar según la herramienta en que las vea.
La siguiente tabla describe las propiedades de conexión de Hive:
Propiedad
Descripción
Nombre
El nombre de la conexión. No se aplica la distinción entre mayúsculas y minúsculas al nombre, el cual debe ser único en el dominio. Puede cambiar esta propiedad después de crear la conexión. El nombre no puede superar los 128 caracteres, contener espacios ni contener los siguientes caracteres especiales:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
Cadena que utiliza el servicio de integración de datos para identificar la conexión. El ID no distingue entre mayúsculas y minúsculas. Debe tener 255 caracteres o menos y debe ser único en el dominio. No puede modificar esta propiedad después de crear la conexión. El valor predeterminado es el nombre de la conexión.
Descripción
La descripción de la conexión. La descripción no puede tener más de 4 000 caracteres.
Ubicación
Dominio donde desea crear la conexión. No válido para la Herramienta del analista.
Tipo
El tipo de conexión. Seleccione Hive.
Nombre de usuario de LDAP
El nombre de usuario de LDAP del usuario que el servicio de integración de datos suplanta para ejecutar asignaciones en un clúster de Hadoop. El nombre de usuario depende de la cadena de conexión de JDBC que especifique en la cadena de conexión de metadatos o en la cadena de conexión de acceso a los datos del entorno nativo.
Si el clúster de Hadoop utiliza autenticación Kerberos, el nombre principal de la cadena de conexión de JDBC y el nombre de usuario deben coincidir. De lo contrario, el nombre de usuario dependerá del comportamiento del controlador JDBC. Con el controlador JDBC de Hive, puede especificar un nombre de usuario de varias formas y este puede ser una parte de la URL de JDBC.
Si el clúster de Hadoop no utiliza autenticación Kerberos, el nombre de usuario depende del comportamiento del controlador JDBC.
Si no especifica un nombre de usuario, el clúster de Hadoop autenticará trabajos según los siguientes criterios:
  • El clúster de Hadoop no utiliza autenticación Kerberos. Autentica trabajos según el nombre de usuario del perfil del sistema operativo del equipo que ejecuta el servicio de integración de datos.
  • El clúster de Hadoop utiliza autenticación Kerberos. Autentica trabajos según el SPN del servicio de integración de datos. Se omitirá el nombre de usuario de LDAP.
Contraseña
La contraseña del nombre de usuario de LDAP.
SQL de entorno
Los comandos SQL para establecer el entorno de Hadoop. En el tipo de entorno nativo, el servicio de integración de datos ejecuta el SQL de entorno cada vez que crea una conexión a un metastore de Hive. Si la conexión de Hive se utiliza para ejecutar perfiles en un clúster de Hadoop, el servicio de integración de datos ejecuta el SQL de entorno al inicio de cada sesión de Hive.
Las siguientes reglas y directrices se aplican al uso del SQL de entorno en ambos modos de conexión:
  • Utilice el SQL de entorno para especificar consultas de Hive.
  • Utilice el SQL de entorno para definir la classpath de las funciones definidas por el usuario de Hive y, a continuación, use el SQL o PreSQL de entorno para especificar las funciones definidas por el usuario de Hive. No se puede usar PreSQL en las propiedades de objetos de datos para especificar la classpath. Si utiliza funciones de Hive definidas por el usuario, debe copiar los archivos .jar en el siguiente directorio:
    <DirectorioDeInstalaciónDeInformatica>/services/shared/hadoop/<nombre de la distribución de Hadoop>/extras/hive-auxjars
  • También puede usar el SQL de entorno para definir los parámetros de Hadoop o Hive que desea utilizar en los comandos PreSQL o en las consultas personalizadas.
  • Si utiliza varios valores en la propiedad SQL del entorno, procure que no haya espacios entre dichos valores.
Carácter de identificador de SQL
El tipo de carácter que se utiliza para identificar caracteres especiales y palabras clave reservadas de SQL, como WHERE. El servicio de integración de datos coloca el carácter seleccionado alrededor de los caracteres especiales y de las palabras clave reservadas de SQL. El Servicio de integración de datos también utiliza este carácter para la propiedad
Compatibilidad con identificadores mixtos (mayúsculas/minúsculas)
.

Propiedades para acceder a Hive como origen o destino

La siguiente tabla describe las propiedades de conexión que configura para acceder a Hive como un origen o destino:
Propiedad
Descripción
Nombre de clase de controlador de JDBC
El nombre de la clase del controlador de JDBC. Si deja esta opción en blanco, Developer tool utilizará el controlador JDBC predeterminado de Apache Hive incluido en la distribución. Si el controlador JDBC predeterminado de Apache Hive no se ajusta a sus requisitos, puede reemplazarlo por un controlador JDBC de terceros especificando el nombre de la clase del controlador.
Cadena de conexión de metadatos
El URI de la conexión de JDBC usado para acceder a los metadatos desde el servidor de Hadoop.
Puede utilizar PowerExchange for Hive para comunicarse con un servicio de HiveServer o HiveServer2. Para conectarse a HiveServer, especifique la cadena de conexión con el siguiente formato:
jdbc:hive2://<hostname>:<port>/<db>
Donde
  • <nombre de host> es el nombre o la dirección IP del equipo en el que se ejecuta HiveServer2.
  • <puerto> es el número de puerto en el que HiveServer2 escucha.
  • <db> es el nombre de la base de datos a la que desea conectarse. Si no especifica el nombre de la base de datos, el servicio de integración de datos utiliza los detalles de la base de datos predeterminada.
Para conectarse a HiveServer2, utilice el formato de cadena de conexión que Apache Hive implementa para esa distribución de Hadoop determinada. Para obtener más información acerca de los formatos de cadena de conexión de Apache Hive, consulte la documentación de Apache Hive.
Para la suplantación de usuarios, debe agregar
hive.server2.proxy.user=<xyz>
al URI de conexión de JDBC. Si no configura la suplantación de usuarios, se utilizan las credenciales del usuario actual para conectarse a HiveServer2.
Si el clúster de Hadoop utiliza la autenticación SSL o TLS, debe agregar
ssl=true
al URI de la conexión de JDBC. Por ejemplo:
jdbc:hive2://<hostname>:<port>/<db>;ssl=true
Si utiliza un certificado autofirmado para la autenticación SSL o TLS, asegúrese de que el archivo del certificado esté disponible en la máquina del cliente y en la máquina del servicio de integración de datos. Para obtener más información, consulte la
Guía de Data Engineering Integration
.
Omitir el servidor JDBC Hive
Un modo de controlador JDBC. Active la casilla de verificación para usar el modo de controlador de JDBC integrado.
Para utilizar el modo incrustado de JDBC, realice las tareas siguientes:
  • Compruebe que el cliente de Hive y los servicios de Informatica están instalados en el mismo equipo.
  • Configure las propiedades de conexión de Hive para que las asignaciones se ejecuten en un clúster de Hadoop.
Si selecciona el modo no incrustado, debe configurar la cadena de conexión de acceso a los datos.
Informatica recomienda utilizar el modo de JDBC integrado.
Autorización específica
Cuando seleccione la opción para respetar la autorización específica en un origen de Hive, la asignación respeta lo siguiente:
  • Las restricciones a nivel de columna y fila. Se aplica a los clústeres de Hadoop donde estén habilitados los modos de seguridad Sentry o Ranger.
  • Reglas de enmascaramiento de datos. Se aplica a las reglas de enmascaramiento que se establecen en columnas que contienen datos confidenciales mediante Dynamic Data Masking.
Si no selecciona la opción, los motores Blaze y Spark omitirán las restricciones y las reglas de enmascaramiento, y los resultados incluirán los datos restringidos o confidenciales.
Cadena de conexión de acceso a los datos
La cadena de conexión para acceder a los datos desde el almacén de datos de Hadoop. Para conectarse a HiveServer, especifique la cadena de conexión del modo JDBC no incrustado con el siguiente formato:
jdbc:hive2://<hostname>:<port>/<db>
Donde
  • <nombre de host> es el nombre o la dirección IP del equipo en el que se ejecuta HiveServer2.
  • <puerto> es el número de puerto en el que HiveServer2 escucha.
  • <db> es la base de datos a la que desea conectarse. Si no especifica el nombre de la base de datos, el servicio de integración de datos utiliza los detalles de la base de datos predeterminada.
Para conectarse a HiveServer2, utilice el formato de cadena de conexión que Apache Hive implementa para la distribución de Hadoop determinada. Para obtener más información acerca de los formatos de cadena de conexión de Apache Hive, consulte la documentación de Apache Hive.
Para la suplantación de usuarios, debe agregar
hive.server2.proxy.user=<xyz>
al URI de conexión de JDBC. Si no configura la suplantación de usuarios, se utilizan las credenciales del usuario actual para conectarse a HiveServer2.
Si el clúster de Hadoop utiliza la autenticación SSL o TLS, debe agregar
ssl=true
al URI de la conexión de JDBC. Por ejemplo:
jdbc:hive2://<hostname>:<port>/<db>;ssl=true
Si utiliza un certificado autofirmado para la autenticación SSL o TLS, asegúrese de que el archivo del certificado esté disponible en la máquina del cliente y en la máquina del servicio de integración de datos. Para obtener más información, consulte la
Guía de Data Engineering Integration
.
Directorio de transferencia provisional de Hive en HDFS
Directorio de HDFS para las tablas de transferencia provisional de Hive. Debe conceder el permiso de ejecución al usuario de suplantación de Hadoop y los usuarios de suplantación de la asignación.
Esta opción se aplica y se requiere cuando se escriben datos en un destino de Hive en el entorno nativo.
Nombre de la base de datos de transferencia provisional de Hive
Espacio de nombres para tablas de ensayo de Hive.
El nombre de la base de datos de transferencia provisional de Hive se actualiza automáticamente a partir de la cadena de conexión de acceso a los datos. Si desea reemplazar el nombre predeterminado, deberá configurar el nombre de la base de datos de transferencia provisional de Hive en la conexión de Hive.
Esta opción se aplica cuando ejecuta una asignación en el entorno nativo para escribir datos en un destino de Hive.
Si ejecuta la asignación en el motor Blaze o Spark, no tendrá que configurar el nombre de la base de datos de transferencia provisional de Hive en la conexión de Hive. El servicio de integración de datos utiliza el valor que configure en la conexión de Hadoop.