Obtención de datos y opciones de muestreo en el motor Spark
Obtención de datos y opciones de muestreo en el motor Spark
A partir de la versión 10.4.0, puede ejecutar perfiles para detectar dominios de datos y seleccionar opciones de muestreo en el motor Spark.
Detección de dominios de datos en el motor Spark
Puede realizar la detección de dominios de datos en el motor Spark.
Opciones de muestreo en el motor Spark
Puede seleccionar las siguientes opciones de muestreo para detectar dominios de datos en el motor Spark:
La opción de muestreo
Limit n
ejecuta un perfil basado en el número de filas en el objeto de datos. Cuando decide detectar dominios de datos en el entorno Hadoop, el motor Spark recopila muestras de varias particiones del objeto de datos y las envía a un único nodo para calcular el tamaño de la muestra.
La opción de muestreo
Random percentage
ejecuta un perfil en un porcentaje de las filas del objeto de datos.
Para obtener más información, consulte el capítulo
Conceptos de Enterprise Data Catalog
en la
Guía del administrador de Informatica 10.4.0 Enterprise Catalog