Índice

Search

  1. Prólogo
  2. Introducción a Test Data Management
  3. Test Data Manager
  4. Proyectos
  5. Políticas
  6. Obtención de datos
  7. Crear de un subconjunto de datos
  8. Realizar una operación de enmascaramiento de datos
  9. Parámetros y técnicas de enmascaramiento de datos
  10. Generación de datos
  11. Parámetros y técnicas de generación de datos
  12. Trabajo con Test Data Warehouse
  13. Análisis de datos de prueba con cobertura de datos
  14. Planes y flujos de trabajo
  15. Supervisor
  16. Informes
  17. ilmcmd
  18. tdwcmd
  19. tdwquery
  20. Apéndice A: Referencia de tipos de datos
  21. Apéndice B: Referencia de tipos de datos para Test Data Warehouse
  22. Apéndice C: Referencia de tipos de datos para Hadoop
  23. Apéndice D: Glosario

Guía del usuario

Guía del usuario

Orígenes de datos Avro y Parquet

Orígenes de datos Avro y Parquet

Cuando seleccione una conexión de destino HDFS, utilice los formatos de recurso Avro o Parquet para enmascarar datos y para mover datos en grupos.
Avro y Parquet son orígenes de datos semiestructurados. Apache Avro es un sistema de serialización de datos en formato binario o en otros formatos de datos; los datos de Avro están en un formato que puede no ser directamente legible para el usuario. Apache Parquet es un formato de almacenamiento en columnas que puede procesarse en un entorno de Hadoop y utiliza un algoritmo de destrucción y ensamblado de registros. Utilice orígenes Avro y Parquet para los archivos de jerarquía de un solo nivel.
Puede mover los datos al destino con los formatos de recurso Avro y Parquet si utiliza el motor Hive, Blaze o Spark.
Si utiliza el formato Parquet, no puede utilizar restricciones nulas o repetidas. La tabla no debe contener ningún valor nulo en una columna o fila. Si existe cualquier columna de este tipo, se debe restringir la columna antes de la ingestión de datos. No se pueden ejecutar perfiles en formatos de origen Avro y Parquet.