Índice

Search

  1. Prólogo
  2. Introducción a Test Data Management
  3. Test Data Manager
  4. Proyectos
  5. Políticas
  6. Obtención de datos
  7. Crear de un subconjunto de datos
  8. Realizar una operación de enmascaramiento de datos
  9. Parámetros y técnicas de enmascaramiento de datos
  10. Generación de datos
  11. Parámetros y técnicas de generación de datos
  12. Trabajo con Test Data Warehouse
  13. Análisis de datos de prueba con cobertura de datos
  14. Planes y flujos de trabajo
  15. Supervisor
  16. Informes
  17. ilmcmd
  18. tdwcmd
  19. tdwquery
  20. Apéndice A: Referencia de tipos de datos
  21. Apéndice B: Referencia de tipos de datos para Test Data Warehouse
  22. Apéndice C: Referencia de tipos de datos para Hadoop
  23. Apéndice D: Glosario

Guía del usuario

Guía del usuario

Orígenes de datos de Hive y HDFS

Orígenes de datos de Hive y HDFS

Puede realizar operaciones de movimiento de datos, detección del dominio de datos y enmascaramiento de datos en orígenes de datos de Hive y Hadoop Distributed File System (HDFS).
Puede utilizar las conexiones de Hive y HDFS en un plan de Hadoop. Cuando se utiliza una conexión de Hive o HDFS, TDM utiliza el servicio de integración de datos para ejecutar las asignaciones en el clúster Hadoop.
Puede crear las conexiones de Hive y de HDFS en Test Data Manager e importar los orígenes de datos en un proyecto. En un plan de Hadoop, puede seleccionar las conexiones de Hive y HDFS como origen, destino o ambas.
Debe definir una configuración de clúster en la Herramienta del administrador antes de realizar las operaciones de TDM en orígenes de HDFS y Hive. Una configuración de clúster es un objeto que contiene información de configuración sobre el clúster Hadoop. La configuración de clúster permite al servicio de integración de datos enviar la lógica de asignación al entorno Hadoop.
El esquema de la base de datos de Hive puede contener tablas temporales no deseadas que se crearon al ejecutar una asignación. Los siguientes ejemplos de formato son las tablas no deseadas en un esquema de base de datos Hive:
w1413372528_infa_generatedsource_1_alpha_check
w1413372528_write_employee1_group_cast_alpha_check
Asegúrese de que no selecciona ninguna tabla temporal al importar los orígenes de datos.
Puede crear un plan de Hadoop para mover datos desde archivos sin formato, Hive y HDFS, o bien desde bases de datos relacionales como Oracle, DB2, ODBC-Sybase y ODBC-Microsoft SQL Server, hasta destinos de Hive y HDFS. También puede crear un plan de Hadoop cuando desee mover los datos entre orígenes y destinos Hive y HDFS. Si el origen es HDFS, puede mover los datos a un destino Hive o HDFS. Si el origen es Hive, puede mover los datos a un destino Hive o HDFS. Puede extraer datos de Hive y HDFS a un archivo sin formato en un plan de Hadoop.
Para ejecutar un plan de Hadoop, TDM utiliza el servicio de integración de datos que se configuró para la optimización de la delegación de tareas. Al generar y ejecutar el plan de Hadoop, TDM genera las asignaciones y el servicio de integración de datos las envía al clúster de Hadoop para mejorar el rendimiento. Puede usar un motor de ejecución Blaze para ejecutar asignaciones de Hadoop. Cuando se selecciona una conexión de destino HDFS, puede utilizar los formatos de recurso Avro o Parquet para enmascarar datos.
No se pueden realizar operaciones de generación de datos o subconjuntos de datos para orígenes y destinos de Hive y HDFS.

Enmascaramiento local de Hive

Puede realizar una operación de enmascaramiento local en orígenes de datos de Hive. Utilice un motor de ejecución Spark para ejecutar las asignaciones en el clúster. Cuando use un motor Spark, puede realizar un enmascaramiento de mezcla y sustitución si usa el tipo de conexión JDBC para crear la conexión del diccionario.
Antes de realizar una operación de enmascaramiento local en orígenes de datos de Hive, debe crear una copia de seguridad de las tablas de origen. Si el movimiento de datos desde las tablas de ensayo hasta las tablas de origen falla, TDM trunca las tablas de origen y podrían perderse datos.