Lorsque vous sélectionnez une connexion cible HDFS, utilisez les formats de ressources Avro ou Parquet pour masquer les données et les déplacer dans des groupes.
Les sources de données Avro et Parquet sont semi-structurées. Apache Avro est un système de sérialisation de données au format binaire ou autre et les données Avro sont dans un format qui peut ne pas être directement lisible pour un être humain. Apache Parquet est un format de stockage en colonnes qui peut être traité dans un environnement Hadoop et qui utilise un algorithme d'assemblage et de déchiquetage d'enregistrements. Utilisez les sources Avro et Parquet pour des fichiers de hiérarchie à un seul niveau.
Vous pouvez déplacer des données vers la cible avec des formats de ressource Avro et Parquet si vous utilisez un moteur Hive, Blaze ou Spark.
Si vous utilisez le format Parquet, vous ne pouvez pas utiliser de contraintes Null ou répétées. Les colonnes et les lignes de la table ne peuvent pas contenir de valeur Null. Si c'est le cas, vous devez restreindre cette ligne ou cette colonne avant d'ingérer les données. Vous ne pouvez pas exécuter de profil sur des formats de source Avro et Parquet.