A transformação Python fornece uma interface para definir a funcionalidade de transformação usando o código Python.
O Python é uma linguagem que usa sintaxe simples, tipagem dinâmica e associação dinâmica, tornando o Python a opção ideal para aumentar a produtividade ou participar do desenvolvimento rápido de aplicativos. Quando você usa seu código Python em um mapeamento de engenharia de dados, esse código é incorporado ao código Scala gerado que o mecanismo Spark ou Databricks Spark executa para processar conjuntos de dados grandes, diversificados e que mudam rapidamente.
Você também pode usar a transformação Python para machine learning. Na transformação, você pode especificar um arquivo de recursos que contém um modelo pré-treinado e carregam o modelo pré-treinado no código Python. Por exemplo, você pode carregar um modelo pré-treinado para classificar dados de entrada ou criar previsões.
Antes de usar a transformação Python, configure as propriedades avançadas do Spark correspondentes nas propriedades de conexão do Hadoop ou do Databricks. Em seguida, certifique-se de que os nós de trabalho no cluster contenham uma instalação do Python.
Para obter mais informações sobre a instalação de Python, consulte o
Guia do Data Engineering Integration
.
Você só pode executar a transformação Python no mecanismo Spark ou Databricks Spark. Você não pode executar a transformação Python no ambiente nativo.
Para obter mais informações sobre a transformação Python, consulte o