Índice

Search

  1. Prólogo
  2. Introducción a la ingesta masiva
  3. Preparar
  4. Crear
  5. Implementar
  6. Run
  7. Supervisor
  8. Apéndice A: Referencia de comando infacmd mi

Guía de ingesta masiva

Guía de ingesta masiva

Consulta DDL

Consulta DDL

Cuando se configura una especificación de ingesta masiva para ingerir datos en un destino de Hive, se puede configurar una consulta DDL personalizada que defina cómo se van a cargar los datos de las tablas de origen en las tablas de destino.
Puede definir la consulta DDL para personalizar la tabla de destino o especificar más parámetros. La tabla de destino contiene las columnas que se han definido en la consulta DDL.
Para definir una consulta DDL, utilice marcadores de posición e instrucciones SQL. Utilice los marcadores de posición para obtener el nombre de la tabla, la lista de columnas y los nombres de columna. El servicio de integración de datos sustituye los marcadores de posición por los valores reales en tiempo de ejecución de acuerdo con las tablas que se ingieran. Los marcadores de posición se deben incluir entre llaves. Por ejemplo, {INFA_TABLE_NAME}.
Puede utilizar los siguientes marcadores de posición:
INFA_TABLE_NAME
Obtiene el nombre de la tabla de destino en tiempo de ejecución.
INFA_COLUMN_LIST
Obtiene una lista de columnas de la tabla de destino en tiempo de ejecución.
Por ejemplo, se podría ingerir una tabla
CUSTOMER
. Para definir cómo desea ingerir esta tabla en el destino, puede introducir la siguiente consulta DDL:
CREATE TABLE {INFA_TABLE_NAME} ({INFA_COLUMN_LIST}) CLUSTERED BY (LAST_NAME) INTO 10 BUCKETS STORED AS TEXT
En tiempo de ejecución, el servicio de integración de datos sustituye
{INFA_TABLE_NAME}
por
CUSTOMER
, así como
{INFA_COLUMN_LIST}
por la lista de columnas que aparecen en la tabla
CUSTOMER
. Puede que el servicio de integración de datos expanda la consulta DDL a la siguiente consulta:
CREATE TABLE CUSTOMER (FIRST_NAME STRING, LAST_NAME STRING, EMAIL STRING, GENDER STRING, CREDIT_CARD DECIMAL (38,0), CREDIT_CARD_TYPE STRING, STATE, STRING, USSTATE STRING, CITY STRING) CLUSTERED BY (LAST_NAME) INTO 10 BUCKETS STORED AS TEXT
No se puede utilizar un marcador de posición para especificar las columnas de partición y agrupado por columnas. Cuando especifique las columnas de partición y agrupado por columnas, introduzca el nombre de la columna en la consulta DDL.
La siguiente imagen muestra la opción para configurar una consulta DDL de un destino de Hive:
En esta imagen se muestran las propiedades de tabla de destino de Hive donde se selecciona la consulta DDL. Las opciones para configurar el formato de almacenamiento y la ubicación externa se reemplazan por la opción para configurar la consulta.