Índice

Search

  1. Prólogo
  2. Introducción a la ingesta masiva
  3. Preparar
  4. Crear
  5. Implementar
  6. Run
  7. Supervisor
  8. Apéndice A: Referencia de comando infacmd mi

Guía de ingesta masiva

Guía de ingesta masiva

Carga completa

Carga completa

Utilice una carga completa para ingerir todos los datos de la especificación de ingesta masiva en el destino. Cuando se usa una carga completa, los datos existentes en el destino de Hive o de HDFS se borran y se reemplazan por los datos de las tablas de origen.
Puede que quiera ejecutar una carga completa por alguno de los siguientes motivos:
Como requisito previo para ejecutar cargas incrementales.
Cuando cree una especificación de ingesta masiva, ejecute una carga completa inicial antes de comenzar a ejecutar cargas incrementales en los datos. La carga completa inicial permite que el motor de Spark cree una base de la que obtener los datos incrementales en las ejecuciones subsiguientes.
Una carga completa inicial también puede ayudar a los administradores a mantener registros de documentación propia. Por ejemplo, puede ejecutar una carga incremental utilizando el modo de sobrescritura como primera ejecución de la especificación, pero el motor de Spark carecerá de una base de la que obtener datos incrementales. Como resultado, el motor de Spark ingerirá todos los datos del origen y llevará a cabo una carga completa de facto. Los registros indicarían que un usuario ejecutó una carga incremental, pero puede que no esté del todo claro si se han ingerido todos los datos o solo los datos incrementales en el destino.
Si ejecuta una carga completa inicial seguida de cargas incrementales subsiguientes, el administrador podrá distinguir si el motor de Spark ha ingerido todos los datos o solo los datos incrementales en cada ejecución de la especificación.
Para actualizar la base de cargas incrementales.
Ejecute una carga completa para actualizar el destino con instrucciones UPSERT y DELETE que se han ejecutado en la base de datos relacional.
Si ejecuta una carga incremental, el motor de Spark obtiene las filas que se han añadido a una tabla relacional usando instrucciones INSERT. El motor de Spark no puede obtener las filas que se han cambiado mediante instrucciones UPSERT y DELETE, de modo que es posible que una carga incremental de una base de datos relacional no constituya una representación exacta de los datos de origen.