Inhaltsverzeichnis

Search

  1. Vorwort
  2. Teil 1: Version 10.4.1
  3. Teil 2: Version 10.4.0
  4. Teil 3: Version 10.2.2
  5. Teil 4: Version 10.2.1
  6. Teil 5: Version 10.2
  7. Teil 6: Version 10.1.1
  8. Teil 7: Version 10.1

Versionshandbuch (10.4.1.2)

Versionshandbuch (10.4.1.2)

Integration in Azure Databricks

Integration in Azure Databricks

Ab Version 10.2.2 können Sie die Informatica-Domäne in die Azure Databricks-Umgebung integrieren.
Azure Databricks ist eine Cloud-Analyseplattform, die für Microsoft Azure-Cloud-Dienste optimiert ist. Sie umfasst die Open-Source-Technologien und -funktionen des Apache Spark-Clusters.
Die Informatica-Domäne kann auf einer Azure-VM oder vor Ort installiert werden. Das Verfahren zur Integration läuft ähnlich ab wie bei der Integration in die Hadoop-Umgebung. Sie führen Integrationsaufgaben aus, beispielsweise den Import der Clusterkonfiguration aus der Databricks-Umgebung. Für den Zugriff auf die Databricks-Umgebung verwendet die Informatica-Domäne eine Token-Authentifizierung. Die Databricks-Token-ID wird in der Databricks-Verbindung gespeichert.

Quellen und Ziele

Sie können Mappings mit den folgenden Quellen und Zielen innerhalb der Databricks-Umgebung ausführen:

    Microsoft Azure Data Lake Store

    Microsoft Azure Blob Storage

    Microsoft Azure SQL Data Warehouse

    Microsoft Azure Cosmos DB

Umwandlungen

Sie können einem Databricks-Mapping die folgenden Umwandlungen hinzufügen:

    Aggregator

    Ausdruck

    Filter

    Joiner

    Lookup

    Normalisierer

    Rang

    Router

    Sortierer

    Union

Die Databricks-Spark-Engine verarbeitet die Umwandlung auf ähnliche Weise, wie die Spark-Engine Prozesse in der Hadoop-Umgebung verarbeitet.

Datentypen

Folgende Datentypen werden unterstützt:

    Array

    Bigint

    Datum/Uhrzeit

    Dezimal

    Doppelt

    Ganzzahl

    Map

    Struct

    Text

    String

Mappings

Beim Konfigurieren eines Mappings haben Sie die Möglichkeit, das Mapping in der Databricks-Umgebung zu validieren und auszuführen. Wenn Sie das Mapping ausführen, generiert der Datenintegrationsdienst Scala-Code und leitet ihn an die Databricks-Spark-Engine weiter.

Arbeitsabläufe

Sie können Cluster-Workflows entwickeln, um in der Databricks-Umgebung Ephemeral-Cluster zu erstellen.
Weitere Informationen finden Sie in den folgenden Handbüchern:

    Big Data Management 10.2.2-Integrationshandbuch

    Big Data Management 10.2.2-Administratorhandbuch

    Big Data Management 10.2.2-Benutzerhandbuch