Ab Version 10.2.2 können Sie die Informatica-Domäne in die Azure Databricks-Umgebung integrieren.
Azure Databricks ist eine Cloud-Analyseplattform, die für Microsoft Azure-Cloud-Dienste optimiert ist. Sie umfasst die Open-Source-Technologien und -funktionen des Apache Spark-Clusters.
Die Informatica-Domäne kann auf einer Azure-VM oder vor Ort installiert werden. Das Verfahren zur Integration läuft ähnlich ab wie bei der Integration in die Hadoop-Umgebung. Sie führen Integrationsaufgaben aus, beispielsweise den Import der Clusterkonfiguration aus der Databricks-Umgebung. Für den Zugriff auf die Databricks-Umgebung verwendet die Informatica-Domäne eine Token-Authentifizierung. Die Databricks-Token-ID wird in der Databricks-Verbindung gespeichert.
Quellen und Ziele
Sie können Mappings mit den folgenden Quellen und Zielen innerhalb der Databricks-Umgebung ausführen:
Microsoft Azure Data Lake Store
Microsoft Azure Blob Storage
Microsoft Azure SQL Data Warehouse
Microsoft Azure Cosmos DB
Umwandlungen
Sie können einem Databricks-Mapping die folgenden Umwandlungen hinzufügen:
Aggregator
Ausdruck
Filter
Joiner
Lookup
Normalisierer
Rang
Router
Sortierer
Union
Die Databricks-Spark-Engine verarbeitet die Umwandlung auf ähnliche Weise, wie die Spark-Engine Prozesse in der Hadoop-Umgebung verarbeitet.
Datentypen
Folgende Datentypen werden unterstützt:
Array
Bigint
Datum/Uhrzeit
Dezimal
Doppelt
Ganzzahl
Map
Struct
Text
String
Mappings
Beim Konfigurieren eines Mappings haben Sie die Möglichkeit, das Mapping in der Databricks-Umgebung zu validieren und auszuführen. Wenn Sie das Mapping ausführen, generiert der Datenintegrationsdienst Scala-Code und leitet ihn an die Databricks-Spark-Engine weiter.
Arbeitsabläufe
Sie können Cluster-Workflows entwickeln, um in der Databricks-Umgebung Ephemeral-Cluster zu erstellen.
Weitere Informationen finden Sie in den folgenden Handbüchern: