Índice

Search

  1. Prólogo
  2. Introducción a la ingesta masiva
  3. Preparar
  4. Crear
  5. Implementar
  6. Run
  7. Supervisor
  8. Apéndice A: Referencia de comando infacmd mi

Guía de ingesta masiva

Guía de ingesta masiva

Destino de Hive

Destino de Hive

Configure un destino de Hive para ingerir datos de origen en tablas de destino de Hive.
Cuando la especificación de ingesta masiva se configura para ingerir datos en un destino de Hive, hay que configurar una conexión de Hive y propiedades de Hive para definir el destino.
Puede ingerir datos en una tabla de Hive interna o externa. Las tablas de Hive internas se administran en Hive, mientras que las externas son tablas sin administrar. Puede especificar una ubicación externa de una tabla externa de Hive como Amazon S3, Microsoft Azure Data Lake Store o HBase.
Si habilita una carga incremental en la definición de la especificación de ingesta masiva, debe configurar las opciones de carga incremental para que el destino de Hive seleccione un modo para ingerir los datos. Además, puede optar por propagar los cambios de esquema en el origen.
En la siguiente imagen se muestra la página Destino de un destino de Hive:
Esta captura de pantalla muestra la página Destino de un destino de Hive de la especificación de ingesta masiva. En la página Destino puede configurar propiedades para definir el destino de Hive. La parte inferior de la página muestra una sección de opciones de carga incremental. En la esquina superior derecha, tiene la opción Siguiente para ir a la página siguiente o el botón X para descartar la especificación.
En la siguiente tabla se describen las propiedades que se pueden configurar para definir el destino de Hive:
Propiedad
Descripción
Conexión de destino
Obligatorio. Conexión de Hive utilizada para hallar el destino de almacenamiento de Hive.
Si se realizan cambios en las conexiones Hive disponibles, actualice el navegador o cierre sesión y vuelva a iniciarla en la herramienta de ingesta masiva.
Esquema de destino
Obligatorio. Esquema que define las tablas de destino.
Prefijo de tabla de destino
Prefijo añadido a los nombres de las tablas de destino.
Introduzca una cadena. Puede introducir caracteres alfanuméricos y de subrayado. El prefijo no distingue mayúsculas de minúsculas.
Sufijo de tabla de destino
Sufijo añadido a los nombres de las tablas de destino.
Introduzca una cadena. Puede introducir caracteres alfanuméricos y de subrayado. El prefijo no distingue mayúsculas de minúsculas.
Opciones de Hive
Seleccione esta opción para configurar la ubicación de destino de Hive.
Consulta DDL
Seleccione esta opción para configurar una consulta DDL personalizada que defina el modo en que los datos de las tablas de origen se cargan en las tablas de destino.
Formato de almacenamiento
Obligatorio. Formato de almacenamiento de las tablas de destino. Puede seleccionar Clúster predeterminado, Texto, Avro, Parquet u ORC. El valor predeterminado es Clúster predeterminado.
Si selecciona Clúster predeterminado, la especificación utiliza el formato de almacenamiento predeterminado en el clúster de Hadoop.
Tabla externa
Seleccione esta opción si la tabla es externa.
Ubicación externa
Ubicación externa del destino de Hive. Las tablas se escriben de forma predeterminada en el directorio de almacén de Hive predeterminado.
Por cada origen que se ingiere se crea un subdirectorio en la ubicación externa especificada. Por ejemplo, puede especificar
/temp
. Una tabla de origen con el nombre
PRODUCT
se ingerirá en la ubicación externa
/temp/PRODUCT/
.
Modo
Obligatorio si habilita la carga incremental. Seleccione Anexar o Sobrescribir. El modo de anexión anexa los datos incrementales al destino. El modo de sobrescritura sobrescribe los datos en el destino por los datos incrementales. El valor predeterminado es Anexar.
Propagar cambios de esquema en el origen
Opcional. Si se añaden columnas nuevas a las tablas de origen o se modifican columnas existentes, los cambios se propagan a las tablas de destino.
Configure las propiedades de la partición y del clúster para las tablas de destino específicas al configurar el reemplazo de transformación.
Cuando ingiera en un destino de Hive, considere las siguientes directrices:
  • Si una tabla de origen se ingiere en un destino de Hive y el nombre de esa tabla de origen contiene una palabra clave reservada en Hive, los datos de la tabla de origen se ingieren en una tabla de destino que tendrá un nombre generado de manera aleatoria.
  • Una tabla de origen no se puede ingerir en Hive si los metadatos de tabla utilizan caracteres UTF-8. Para solucionar este problema, configure el almacenamiento metastore de Hive para el procesamiento de datos UTF-8.
  • No se puede ingerir una tabla de origen en un archivo Avro ubicado en un destino de Hive si la tabla de origen contiene una columna con un tipo de datos de marca de tiempo o si la carga incremental está configurada con una clave de marca de tiempo. Para ingerir datos de marca de tiempo en un archivo Avro, el controlador Hive JDBC de terceros debe tener una versión de Hive superior a 1.1.
  • Si se ejecuta una carga completa para ingerir datos en un destino de Hive de una ubicación externa, todas las filas de la tabla de origen se añaden a la tabla de Hive de destino. Por ejemplo, si la tabla de origen contiene 500 filas y se ejecuta una carga completa dos veces, la tabla de Hive contendrá 1000 filas. Para restablecer la tabla, debe borrar los datos en la ubicación externa.