Table des matières

Search

  1. Préface
  2. Introduction à la gestion des données de test
  3. Test Data Manager
  4. Projets
  5. Stratégies
  6. Data Discovery
  7. Création d'un sous-ensemble de données
  8. Exécution d'une opération de masquage des données
  9. Techniques et paramètres du masquage des données
  10. Génération des données
  11. Techniques et paramètres de génération des données
  12. Utilisation de Test Data Warehouse
  13. Analyse des données de test à l'aide de la couverture de données
  14. Plans et flux de travail
  15. Surveiller
  16. Rapports
  17. ilmcmd
  18. tdwcmd
  19. tdwquery
  20. Annexe A: Référence sur les types de données
  21. Annexe B: Référence sur les types de données pour Test Data Warehouse
  22. Annexe C: Référence sur les types de données pour Hadoop
  23. Annexe D: Glossaire

Guide de l'utilisateur

Guide de l'utilisateur

Sources de données Hive et HDFS

Sources de données Hive et HDFS

Vous pouvez effectuer des opérations de mouvement de données, de découverte de domaines de données et de masquage des données sur les sources de données Hive et Hadoop Distributed File System (HDFS).
Vous pouvez utiliser des connexions Hive et HDFS dans un plan Hadoop. Lorsque vous utilisez une connexion Hive ou HDFS, TDM utilise le service d'intégration de données pour exécuter les mappages dans le cluster Hadoop.
Vous pouvez créer des connexions Hive et HDFS dans Test Data Manager et importer les sources de données Hadoop dans un projet. Dans un plan Hadoop, vous pouvez sélectionner des connexions Hive et HDFS en tant que source, cible ou les deux.
Vous devez configurer un objet de configuration de cluster dans l'outil Administrator tool avant d'effectuer des opérations TDM sur les sources Hive et HDFS. Une configuration de grappe est un objet qui contient des informations de configuration sur la grappe Hadoop. La configuration de grappe permet au service d'intégration de données de transmettre la logique de mappage à l'environnement Hadoop.
Le schéma de la base de données Hive peut contenir des tables temporaires indésirables qui sont créées lorsque vous exécutez un mappage. Les exemples de formats suivants sont des tables poubelles dans un schéma de base de données Hive :
w1413372528_infa_generatedsource_1_alpha_check
w1413372528_write_employee1_group_cast_alpha_check
Assurez-vous de ne pas sélectionner de table temporaire lorsque vous importez des sources de données.
Vous pouvez créer un plan Hadoop pour déplacer des données depuis des sources Hive ou HDFS, des fichiers plats ou des bases de données relationnelles de type Oracle, DB2, ODBC-Sybase et ODBC-Microsoft SQL Server vers des cibles Hive ou HDFS. Vous pouvez également créer un plan Hadoop lorsque vous souhaitez déplacer des données entre des sources et des cibles Hive et HDFS. Si la source est HDFS, vous pouvez déplacer des données vers une cible Hive ou HDFS. Si la source est Hive, vous pouvez déplacer des données vers une cible Hive ou HDFS. Vous pouvez extraire des données de Hive et de HDFS vers un fichier plat dans un plan Hadoop.
Pour exécuter un plan Hadoop, TDM utilise le service d'intégration de données configuré pour l'optimisation de refoulement. Lorsque vous générez et exécutez le plan Hadoop, TDM génère les mappages et le service d'intégration de données transfère les mappages à la grappe Hadoop pour améliorer les performances. Vous pouvez utiliser un moteur d'exécution Blaze pour exécuter des mappages Hadoop. Lorsque vous sélectionnez une connexion cible HDFS, vous pouvez utiliser les formats de ressources Avro ou Parquet pour masquer les données.
Vous ne pouvez pas effectuer d'opérations de sous-ensemble de données ou de génération de données sur des sources et des cibles Hive et HDFS.

Masquage en place Hive

Vous pouvez effectuer une opération de masquage en place sur les sources de données Hive. Utilisez un moteur d'exécution Spark pour exécuter les mappages dans le cluster. Lorsque vous utilisez un moteur Spark, vous pouvez utiliser le masquage aléatoire et de substitution si vous utilisez le type de connexion JDBC pour créer la connexion au dictionnaire.
Avant d'effectuer une opération de masquage en place sur les sources de données Hive, vous devez effectuer une sauvegarde des tables sources. En cas d'échec du mouvement de données depuis les tables intermédiaires vers les tables sources, TDM tronque les tables sources, ce qui peut engendrer une perte de données.