Versionshandbuch (10.4.1.2)

10.4.1
- 10.5.7
- 10.5.3
- 10.5.2
- 10.5.1
- 10.5

Zurück Weiter

Integration in Azure Databricks

Ab Version 10.2.2 können Sie die Informatica-Domäne in die Azure Databricks-Umgebung integrieren.

Azure Databricks ist eine Cloud-Analyseplattform, die für Microsoft Azure-Cloud-Dienste optimiert ist. Sie umfasst die Open-Source-Technologien und -funktionen des Apache Spark-Clusters.

Die Informatica-Domäne kann auf einer Azure-VM oder vor Ort installiert werden. Das Verfahren zur Integration läuft ähnlich ab wie bei der Integration in die Hadoop-Umgebung. Sie führen Integrationsaufgaben aus, beispielsweise den Import der Clusterkonfiguration aus der Databricks-Umgebung. Für den Zugriff auf die Databricks-Umgebung verwendet die Informatica-Domäne eine Token-Authentifizierung. Die Databricks-Token-ID wird in der Databricks-Verbindung gespeichert.

Quellen und Ziele

Sie können Mappings mit den folgenden Quellen und Zielen innerhalb der Databricks-Umgebung ausführen:

Microsoft Azure Data Lake Store

Microsoft Azure Blob Storage

Microsoft Azure SQL Data Warehouse

Microsoft Azure Cosmos DB

Umwandlungen

Sie können einem Databricks-Mapping die folgenden Umwandlungen hinzufügen:

Aggregator

Ausdruck

Filter

Joiner

Lookup

Normalisierer

Rang

Router

Sortierer

Union

Die Databricks-Spark-Engine verarbeitet die Umwandlung auf ähnliche Weise, wie die Spark-Engine Prozesse in der Hadoop-Umgebung verarbeitet.

Datentypen

Folgende Datentypen werden unterstützt:

Array

Bigint

Datum/Uhrzeit

Dezimal

Doppelt

Ganzzahl

Map

Struct

Text

String

Mappings

Beim Konfigurieren eines Mappings haben Sie die Möglichkeit, das Mapping in der Databricks-Umgebung zu validieren und auszuführen. Wenn Sie das Mapping ausführen, generiert der Datenintegrationsdienst Scala-Code und leitet ihn an die Databricks-Spark-Engine weiter.