Cuando seleccione una conexión de destino HDFS, utilice los formatos de recurso Avro o Parquet para enmascarar datos y para mover datos en grupos.
Avro y Parquet son orígenes de datos semiestructurados. Apache Avro es un sistema de serialización de datos en formato binario o en otros formatos de datos; los datos de Avro están en un formato que puede no ser directamente legible para el usuario. Apache Parquet es un formato de almacenamiento en columnas que puede procesarse en un entorno de Hadoop y utiliza un algoritmo de destrucción y ensamblado de registros. Utilice orígenes Avro y Parquet para los archivos de jerarquía de un solo nivel.
Puede mover los datos al destino con los formatos de recurso Avro y Parquet si utiliza el motor Hive, Blaze o Spark.
Si utiliza el formato Parquet, no puede utilizar restricciones nulas o repetidas. La tabla no debe contener ningún valor nulo en una columna o fila. Si existe cualquier columna de este tipo, se debe restringir la columna antes de la ingestión de datos. No se pueden ejecutar perfiles en formatos de origen Avro y Parquet.