Índice

Search

  1. Prólogo
  2. Descripción de dominios
  3. Administración de su cuenta
  4. Uso de Informatica Administrator
  5. Usar la vista Dominio
  6. Administración de dominios
  7. Nodos
  8. Alta disponibilidad
  9. Conexiones
  10. Propiedades de conexión
  11. Programaciones
  12. Exportación e importación de objetos de dominio
  13. Administración de licencias
  14. Supervisión
  15. Administración de registros
  16. Informes de dominio
  17. Diagnósticos de nodos
  18. Descripción de la globalización
  19. Apéndice A: Páginas de códigos
  20. Apéndice B: Funciones personalizadas
  21. Apéndice C: Conectividad de Informatica Platform
  22. Apéndice D: Configuración del navegador web

Guía del administrador

Guía del administrador

Propiedades de conexión de Databricks

Propiedades de conexión de Databricks

Utilice la conexión de Databricks para ejecutar asignaciones en un clúster de Databricks.
Una conexión de Databricks es una conexión de tipo clúster. Puede crear y administrar una conexión de Databricks en la Herramienta del administrador o en Developer tool. Puede utilizar infacmd para crear una conexión de Databricks. Configure las propiedades en la conexión de Databricks para permitir la comunicación entre el servicio de integración de datos y el clúster de Databricks.
En la tabla siguiente se describen las propiedades de conexión generales de la conexión de Databricks:
Propiedad
Descripción
Nombre
El nombre de la conexión. No se aplica la distinción entre mayúsculas y minúsculas al nombre, el cual debe ser único en el dominio. Puede cambiar esta propiedad después de crear la conexión. El nombre no puede superar los 128 caracteres, contener espacios ni contener los siguientes caracteres especiales:~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
Cadena que utiliza el servicio de integración de datos para identificar la conexión. El ID no distingue entre mayúsculas y minúsculas. Debe tener 255 caracteres o menos y debe ser único en el dominio. No puede modificar esta propiedad después de crear la conexión. El valor predeterminado es el nombre de la conexión.
Descripción
Opcional. La descripción de la conexión. La descripción no puede tener más de 4000 caracteres.
Tipo de conexión
Seleccione Databricks.
Configuración de clúster
Nombre de la configuración de clúster asociada al entorno de Databricks.
Necesario si no se realiza la configuración de aprovisionamiento de nube.
Configuración de aprovisionamiento de nube
Nombre de la configuración de aprovisionamiento de nube asociada a la plataforma de nube de Databricks.
Necesario si no se realiza la configuración de clúster.
Directorio de transferencia provisional
El directorio donde el motor de Spark de Databricks almacena los archivos de tiempo de ejecución.
Si especifica un directorio que no existe, el servicio de integración de datos lo crea en tiempo de ejecución.
Si proporciona una ruta de acceso al directorio, los archivos de transferencia provisional de tiempo de ejecución se escriben en
/<directorio de transferencia provisional del clúster>/DATABRICKS
.
Propiedades avanzadas
Lista de propiedades avanzadas que son exclusivas del entorno de Databricks.
Puede configurar las propiedades de tiempo de ejecución del entorno de Databricks en el servicio de integración de datos y en la conexión de Databricks. Puede reemplazar una propiedad configurada a un alto nivel estableciendo el valor en un nivel inferior. Por ejemplo, si configura una propiedad personalizada del servicio de integración de datos, podrá reemplazarla en la conexión de Databricks. El servicio de integración de datos procesa las sustituciones de propiedades en función de las siguientes prioridades:
  1. Propiedades avanzadas de la conexión de Databricks
  2. Propiedades personalizadas del servicio de integración de datos
Informatica no recomienda cambiar estos valores de propiedad sin consultar antes la documentación de terceros, la documentación de Informatica o con el servicio de atención al cliente global de Informatica. Si cambia un valor sin conocimiento de la propiedad, es posible que experimente degradación del rendimiento u otros resultados inesperados.

Propiedades avanzadas

Configure las siguientes propiedades en las
Propiedades avanzadas
de la sección de configuración de Databricks:
infaspark.json.parser.mode
Especifica al analizador cómo gestionar los registros de JSON dañados. Puede establecer el valor en uno de los siguientes modos:
  • DROPMALFORMED. El analizador pasa por alto todos los registros dañados. Modo predeterminado.
  • PERMISSIVE. El analizador acepta los campos no estándar como nulos en los registros dañados.
  • FAILFAST. El analizador genera una excepción cuando encuentra un registro dañado y la aplicación Spark se desactiva.
infaspark.json.parser.multiLine
Especifica si el analizador puede leer un registro de varias líneas en un archivo JSON. Puede establecer este valor en true o false. El valor predeterminado es false. Se aplica solo a distribuciones no nativas que usan Spark 2.2.x y versiones posteriores.
infaspark.flatfile.writer.nullValue
Cuando el motor de Databricks Spark escribe en un destino, convierte los valores nulos en cadenas vacías (" "). Por ejemplo, 12, AB,"",23p09udj.
El motor de Databricks Spark puede escribir las cadenas vacías en columnas de cadena, pero cuando intenta escribir una cadena vacía en una columna que no es de cadena, se produce un error en la asignación debido a un error de coincidencia de tipos.
Para permitir que el motor de Databricks Spark vuelva a convertir las cadenas vacías en valores nulos y escribir en el destino, configure la propiedad en la conexión de Databricks Spark.
Establezca el valor en: TRUE
infaspark.pythontx.exec
Es necesario para ejecutar una transformación de Python en el motor de Databricks Spark. Establezca la ubicación del archivo binario ejecutable de Python en los nodos de trabajo en el clúster de Databricks.
Cuando aprovisione el clúster en tiempo de ejecución, establezca esta propiedad en la configuración de aprovisionamiento de nube de Databricks. De lo contrario, establezca la conexión de Databricks.
Por ejemplo, establézcalo en:
infaspark.pythontx.exec=/databricks/python3/bin/python3
infaspark.pythontx.executorEnv.PYTHONHOME
Es necesario para ejecutar una transformación de Python en el motor de Databricks Spark. Establezca la ubicación del directorio de instalación de Python en los nodos de trabajo en el clúster de Databricks.
Cuando aprovisione el clúster en tiempo de ejecución, establezca esta propiedad en la configuración de aprovisionamiento de nube de Databricks. De lo contrario, establezca la conexión de Databricks.
Por ejemplo, establézcalo en:
infaspark.pythontx.executorEnv.PYTHONHOME=/databricks/python3