La transformation Python fournit une interface permettant de définir les fonctionnalités de transformation à l'aide du code Python.
Python est un langage qui utilise une syntaxe simple, une saisie dynamique et une liaison dynamique. Ce qui fait de Python un choix idéal pour augmenter la productivité ou pour prendre part au développement rapide des applications. Lorsque vous utilisez votre code Python dans un mappage Data Engineering, ce code est intégré dans le code Scala généré que le moteur Spark ou Databricks Spark exécute pour traiter des jeux de données volumineux, différents et évoluant rapidement.
Vous pouvez également utiliser la transformation Python pour l'apprentissage automatique. Dans la transformation, vous pouvez spécifier un fichier de ressource qui contient un modèle prédéfini et charger celui-ci dans le code Python. Par exemple, vous pouvez charger un modèle prédéfini pour classer des données d'entrée ou pour créer des prédictions.
Avant d'utiliser la transformation Python, configurez les propriétés avancées Spark correspondantes dans la connexion Hadoop ou les propriétés de connexion Databricks. Vérifiez ensuite que les nœuds de travail sur le cluster contiennent une installation de Python.
Pour plus d'informations sur l'installation de Python, consultez le
Guide de Data Engineering Integration
.
Vous ne pouvez exécuter la transformation Python sur le moteur Spark ou Databricks Spark. Vous ne pouvez pas exécuter la transformation Python dans l'environnement natif.
Pour plus d'informations sur la transformation Python, consultez le
Guide de l'utilisateur de Data Engineering Integration