Índice

Search

  1. Prólogo
  2. Parte 1: Introducción a la obtención de datos
  3. Parte 2: Obtención de datos con Informatica Analyst
  4. Parte 3: Obtención de datos con Informatica Developer
  5. Apéndice A: Compatibilidad de función basada en la conexión del almacén de creación de perfiles

Guía de detección de datos

Guía de detección de datos

Opciones de muestreo

Opciones de muestreo

Las opciones de muestreo determinan el número de filas en las que Developer tool ejecuta un perfil. Puede configurar las opciones de muestreo cuando defina un perfil o ejecute un perfil.
En la tabla siguiente, se describen las opciones de muestreo para un perfil:
Propiedad
Descripción
Todas las filas
Ejecuta un perfil en todas las filas del objeto de datos.
Se admite en un entorno en tiempo de ejecución nativo, de Blaze, de Spark y de Databricks.
Mostrar las primeras <número> filas
Ejecuta un perfil en las filas de muestra desde el principio de las filas en el objeto de datos. Puede especificar un máximo de 2.147.483.647 filas.
Se admite en el entorno en tiempo de ejecución nativo y de Blaze.
Muestra aleatoria de <número> filas
Ejecuta un perfil en un número de filas seleccionado aleatoriamente en el objeto de datos. Puede especificar un máximo de 2.147.483.647 filas.
Se admite en el entorno en tiempo de ejecución nativo y de Blaze.
Muestra aleatoria (automática)
Ejecuta un perfil en las filas de muestra calculadas según el número de filas en el objeto de datos.
Se admite en el entorno en tiempo de ejecución nativo y de Blaze.
Limitar N <número> filas
Ejecuta un perfil en función del número de filas en el objeto de datos. Cuando se decide ejecutar un perfil en el entorno de validación de Hadoop, el motor de Spark recopila muestras de varias particiones del objeto de datos y las inserta en un único nodo para calcular el tamaño de la muestra. La opción de muestreo Limitar N admite bases de datos de Oracle, de SQL Server y de DB2. No se pueden aplicar filtros avanzados con la opción de muestreo Limitar N.
Se admite en el entorno en tiempo de ejecución de Spark.
Porcentaje aleatorio
Ejecuta un perfil en un porcentaje de filas en el objeto de datos.
Se admite en un entorno en tiempo de ejecución de Spark y de Databricks.
Excluye los tipos de datos y los dominios de datos aprobados de la deducción de tipo de datos y del dominio de datos en las siguientes ejecuciones del perfil.
Excluye el tipo de datos o el dominio de datos aprobado de la deducción de tipo de datos y del dominio de datos de la siguiente ejecución del perfil.
Después de elegir ejecutar el perfil en una muestra aleatoria de filas, el algoritmo de muestra aleatoria escoge las filas al azar en el objeto de datos en donde debe ejecutarse el perfil. Cuando se selecciona una opción de muestreo aleatorio para los perfiles de columna, Developer tool realiza un desglose de los datos provisionales. Esto puede afectar el rendimiento del desglose. Cuando se elige una opción de muestreo aleatorio para los perfiles de detección del dominio de datos, Developer tool realiza un desglose de los datos activos.