Common Content for Data Engineering
- Common Content for Data Engineering 10.5
- Todos los productos
Propiedad
| Descripción
|
---|---|
Utilizar la suplantación y los perfiles del sistema operativo
| Ejecuta asignaciones, flujos de trabajo y trabajos de creación de perfiles con perfiles del sistema operativo.
En un entorno de Hadoop, el servicio de integración de datos utiliza el usuario de suplantación de Hadoop para ejecutar asignaciones, flujos de trabajo y trabajos de creación de perfiles.
Puede seleccionar esta opción si el servicio de integración de datos se ejecuta en UNIX o Linux. Para aplicar los cambios, reinicie el servicio de integración de datos.
|
Iniciar opciones de trabajos
| Ejecuta trabajos en el proceso de servicio de integración de datos, en procesos de DTM separados en el nodo local o en procesos de DTM separados en nodos remotos. La configuración de esta propiedad depende de si el servicio de integración de datos se ejecuta en un solo nodo o en una malla, y de los tipos de trabajos que ejecuta el servicio.
Elija una de las siguientes opciones:
La opción predeterminada es procesos locales independientes.
Si el servicio de integración de datos utiliza perfiles del sistema operativo, realice una configuración para ejecutar trabajos en procesos locales independientes.
Si el servicio de integración de datos se ejecuta en UNIX y está configurado para Ejecución de trabajos en procesos separados locales o remotos, compruebe que el archivo de host de cada nodo con la función de cálculo contenga una entrada localhost. De lo contrario, los trabajos que se ejecutan en procesos independientes no se completarán correctamente.
|
Tamaño máximo del grupo de ejecución a petición
| Número máximo de trabajos a petición que pueden ejecutarse simultáneamente. Los trabajos incluyen previsualizaciones de datos, trabajos de creación de perfiles, consultas REST y SQL, solicitudes de servicios web y asignaciones que se ejecutan desde Developer tool. Todos los trabajos que recibe el servicio de integración de datos contribuyen al tamaño del grupo a petición. El servicio de integración de datos ejecuta inmediatamente trabajos a petición si hay suficientes recursos disponibles. De lo contrario, el servicio de integración de datos rechaza el trabajo. El valor predeterminado es 10.
El tamaño máximo del grupo a petición depende del número máximo de trabajos simultáneos que un cliente de Developer tool puede ejecutar en un servicio de integración de datos. El número máximo de trabajos simultáneos que puede ejecutar un cliente de Developer tool es 10.
|
Tamaño máximo del grupo de ejecución de lotes nativos
| Número máximo de trabajos implementados que se pueden ejecutar simultáneamente en el entorno nativo. El servicio de integración de datos mueve trabajos nativos de asignación desde la cola hasta el grupo de trabajos nativos cuando hay suficientes recursos disponibles. El valor predeterminado es 10.
|
Tamaño máximo del grupo de ejecución de lotes Hadoop
| Número máximo de trabajos implementados que se pueden ejecutar simultáneamente en el entorno de Hadoop. El servicio de integración de datos mueve trabajos de Hadoop desde la cola hasta el grupo de lotes de Hadoop cuando hay suficientes recursos disponibles. El valor predeterminado es 100.
|
Tamaño máximo de memoria
| Cantidad máxima de memoria, en bytes, que el servicio de integración de datos puede asignar para ejecutar todas las solicitudes de forma simultánea cuando el servicio ejecuta trabajos en el proceso de servicio de integración de datos. Cuando el servicio de integración de datos ejecuta trabajos en procesos locales o remotos independientes, el servicio omite este valor. Si no desea limitar la cantidad de memoria que el servicio de integración de datos puede asignar, establezca esta propiedad en 0.
Si el valor es mayor que 0, el servicio de integración de datos utiliza la propiedad para calcular la memoria total máxima permitida para ejecutar todas las solicitudes de forma simultánea. El servicio de integración de datos calcula la memoria total máxima de la siguiente forma:
Tamaño máximo de memoria + Tamaño de heap máximo + Memoria necesaria para cargar componentes de programa
El valor predeterminado es 0.
Si ejecuta perfiles o asignaciones de calidad de datos, establezca esta propiedad en 0.
|
Número máximo de paralelismos
| Número máximo de subprocesos paralelos que procesan una sola etapa de canal de asignación.
Cuando se establece un valor mayor que 1, el servicio de integración de datos permite la partición de asignaciones, la creación de perfiles de columnas y la detección de dominios de datos. El servicio escalará dinámicamente la cantidad de particiones de un canal de asignación en tiempo de ejecución. Aumente el valor en función del número de CPU disponibles en los nodos donde se ejecutan los trabajos.
El paralelismo máximo para cada asignación se puede cambiar en Developer tool. Cuando tanto el servicio de integración de datos como la asignación tienen configurado el paralelismo máximo, el servicio de integración de datos usará el valor mínimo para ejecutar la asignación.
No puede modificar el valor del número máximo de paralelismos para cada perfil. Cuando el servicio de integración de datos convierte un trabajo de perfil en una o varias asignaciones, las asignaciones siempre utilizan Automático para el número máximo de paralelismos de asignación.
No tiene que establecer el número máximo de paralelismos que necesita el servicio de integración de datos para utilizar varias particiones en el entorno de Hadoop.
El valor predeterminado es 1. El valor máximo es 64.
|
Nombre de entidad de seguridad de servicio de Kerberos para Hadoop
| Nombre de entidad de seguridad de servicio (SPN) del servicio de integración de datos para conectarse a un clúster de Hadoop que utiliza autenticación de Kerberos.
No es necesario cuando se ejecuta la distribución de Hadoop de MapR. Es necesario para otras distribuciones de Hadoop.
|
Tabla de claves de Kerberos para Hadoop
| La ruta al archivo de tabla de claves de Kerberos en el equipo en el que se ejecuta el servicio de integración de datos.
No es necesario cuando se ejecuta la distribución de Hadoop de MapR. Es necesario para otras distribuciones de Hadoop.
|
Directorio principal
| El directorio raíz al que se puede tener acceso mediante el nodo. Este es el directorio raíz para otros directorios de servicio. El valor predeterminado es <directorio de instalación de servicios de Informatica>/tomcat/bin/ . Si cambia el valor predeterminado, compruebe que el directorio exista.
No se pueden utilizar los siguientes caracteres en la ruta del directorio:
Este cambio en la propiedad no requiere un reinicio del servicio de integración de datos.
|
Directorios temporales
| Directorio de los archivos temporales creados cuando se ejecutan los trabajos. El valor predeterminado es <directorio principal>/disTemp .
Introduzca una lista de directorios separados por punto y coma para optimizar el rendimiento durante las operaciones de perfil y durante la partición de caché para transformaciones de clasificador.
No se pueden utilizar los siguientes caracteres en la ruta del directorio:
Este cambio en la propiedad no requiere un reinicio del servicio de integración de datos.
|
Directorio de la memoria caché
| El directorio de los archivos de índice y memoria caché de datos de las transformaciones. El valor predeterminado es <directorio principal>/cache .
Introduzca una lista de directorios separados por punto y coma para aumentar el rendimiento durante las transformaciones de partición de caché, agregación, unión o clasificación.
No se pueden utilizar los siguientes caracteres en la ruta del directorio:
Este cambio en la propiedad no requiere un reinicio del servicio de integración de datos.
|
Directorio de origen
| El directorio para archivos sin formato de origen utilizados en una asignación. El directorio predeterminado es <directorio principal>/source .
Si el servicio de integración de datos se ejecuta en una malla, se puede usar un directorio compartido para los archivos de origen. Si configura un directorio diferente para cada nodo con función de cálculo, asegúrese de que los archivos de origen sean coherentes entre todos los directorios de origen.
No se pueden utilizar los siguientes caracteres en la ruta del directorio:
Este cambio en la propiedad no requiere un reinicio del servicio de integración de datos.
|
Directorio de destino
| El directorio predeterminado para los archivos sin formato de destino utilizados en una asignación. El directorio predeterminado es <directorio principal>/target .
Introduzca una lista de directorios separados por punto y coma para aumentar el rendimiento cuando varias particiones escriban en el archivo de texto sin formato de destino.
No se pueden utilizar los siguientes caracteres en la ruta del directorio:
Este cambio en la propiedad no requiere un reinicio del servicio de integración de datos.
|
Directorio de archivos rechazados
| El directorio para los archivos de rechazo. Los archivos de rechazo contienen filas que se rechazaron al ejecutar una asignación. El directorio predeterminado es <directorio principal>/reject .
No se pueden utilizar los siguientes caracteres en la ruta del directorio:
Este cambio en la propiedad no requiere un reinicio del servicio de integración de datos.
|
Directorio de transferencia provisional del clúster
| El directorio del clúster en el que el servicio de integración de datos inserta los archivos binarios para integrar los entornos nativos y no nativos, y para almacenar los archivos temporales durante el procesamiento. El valor predeterminado es /tmp.
|
Usuario de transferencia provisional de Hadoop
| El usuario HDFS que ejecuta operaciones en el directorio de transferencia provisional de Hadoop. El usuario necesita permisos de escritura en el directorio de transferencia provisional de Hadoop. El valor predeterminado es el usuario del servicio de integración de datos.
|
Ruta de acceso personalizada para el SO de Hadoop
| La ruta de acceso local a los archivos binarios de Informatica Hadoop compatibles con el sistema operativo de Hadoop. Es obligatorio cuando el clúster de Hadoop y el servicio de integración de datos están en diferentes sistemas operativos compatibles. Descargue y extraiga los binarios de Informatica para el clúster de Hadoop en la máquina que aloja el servicio de integración de datos. El servicio de integración de datos utiliza los archivos binarios de este directorio para integrar el dominio con el clúster de Hadoop. El servicio de integración de datos puede sincronizar los siguientes sistemas operativos:
SUSE 12 y RedHat 6.7
Los cambios surten efecto después de reciclar el servicio de integración de datos.
Al instalar un EBF de Informatica, también debe instalarlo en la ruta del sistema operativo de Hadoop en la máquina del servicio de integración de datos.
|
Recuperación de Data Engineering
| Indica si los trabajos de asignación que se ejecutan en el motor de Spark se recuperan cuando se produce un error en el nodo de procesamiento del servicio de integración de datos. El valor predeterminado es False.
Para obtener más información, consulte la Guía del administrador de Informatica Data Engineering .
|
State Store
| La ubicación de HDFS en el clúster para almacenar información sobre el estado del trabajo de Spark. El directorio predeterminado es <directorio principal>/State Store
Configure esta propiedad al configurar las propiedades de tiempo de ejecución de una asignación de secuencia.
Este cambio en la propiedad no requiere un reinicio del servicio de integración de datos.
Para obtener más información sobre esta propiedad, consulte la Guía del usuario de transmisión de Big Data .
|