La transformación de Python proporciona una interfaz para definir la función de transformación usando código Python.
Python es un lenguaje que utiliza una sintaxis sencilla, escritura dinámica y enlaces dinámicos, lo que hace que Python sea una opción ideal para aumentar la productividad o participar en el desarrollo rápido de aplicaciones. Cuando usa su código Python en una asignación de Data Engineering, dicho código se inserta en el código de Scala generado que el motor de Spark o Databricks Spark ejecuta para procesar conjuntos de datos grandes, diversos y en constante cambio.
También puede utilizar la transformación de Python para el aprendizaje automático. En la transformación, puede especificar un archivo de recursos que contiene un modelo previamente entrenado y cargar dicho modelo en el código Python. Por ejemplo, puede cargar un modelo previamente entrenado para clasificar datos de entrada o para crear predicciones.
Para poder utilizar la transformación de Python, configure las propiedades avanzadas de Spark correspondientes en las propiedades de conexión de Hadoop o Databricks. Luego, asegúrese de que los nodos de trabajo del clúster contienen una instalación de Python.
Para obtener más información sobre la instalación de Python, consulte la
Guía de Data Engineering Integration
.
Solo puede ejecutar la transformación de Python en el motor de Spark o de Databricks Spark. La transformación de Python no se puede ejecutar en el entorno nativo.
Para obtener más información acerca de la transformación de Python, consulte la