Inhaltsverzeichnis

Search

  1. Version 10.2.2
  2. Version 10.2.1
  3. Version 10.2
  4. Version 10.1.1
  5. Version 10.1

Integration in Azure Databricks

Integration in Azure Databricks

Ab Version 10.2.2 können Sie die Informatica-Domäne in die Azure Databricks-Umgebung integrieren.
Azure Databricks ist eine Cloud-Analyseplattform, die für Microsoft Azure-Cloud-Dienste optimiert ist. Sie umfasst die Open-Source-Technologien und -funktionen des Apache Spark-Clusters.
Die Informatica-Domäne kann auf einer Azure-VM oder vor Ort installiert werden. Das Verfahren zur Integration läuft ähnlich ab wie bei der Integration in die Hadoop-Umgebung. Sie führen Integrationsaufgaben aus, beispielsweise den Import der Clusterkonfiguration aus der Databricks-Umgebung. Für den Zugriff auf die Databricks-Umgebung verwendet die Informatica-Domäne eine Token-Authentifizierung. Die Databricks-Token-ID wird in der Databricks-Verbindung gespeichert.

Quellen und Ziele

Sie können Mappings mit den folgenden Quellen und Zielen innerhalb der Databricks-Umgebung ausführen:

    Microsoft Azure Data Lake Store

    Microsoft Azure Blob Storage

    Microsoft Azure SQL Data Warehouse

    Microsoft Azure Cosmos DB

Umwandlungen

Sie können einem Databricks-Mapping die folgenden Umwandlungen hinzufügen:

    Aggregator

    Ausdruck

    Filter

    Joiner

    Lookup

    Normalisierer

    Rang

    Router

    Sortierer

    Union

Die Databricks-Spark-Engine verarbeitet die Umwandlung auf ähnliche Weise, wie die Spark-Engine Prozesse in der Hadoop-Umgebung verarbeitet.

Datentypen

Folgende Datentypen werden unterstützt:

    Array

    Bigint

    Datum/Uhrzeit

    Dezimal

    Doppelt

    Ganzzahl

    Map

    Struct

    Text

    String

Mappings

Beim Konfigurieren eines Mappings haben Sie die Möglichkeit, das Mapping in der Databricks-Umgebung zu validieren und auszuführen. Wenn Sie das Mapping ausführen, generiert der Datenintegrationsdienst Scala-Code und leitet ihn an die Databricks-Spark-Engine weiter.

Arbeitsabläufe

Sie können Cluster-Workflows entwickeln, um in der Databricks-Umgebung Ephemeral-Cluster zu erstellen.
Weitere Informationen finden Sie in den folgenden Handbüchern:

    Big Data Management 10.2.2-Integrationshandbuch

    Big Data Management 10.2.2-Administratorhandbuch

    Big Data Management 10.2.2-Benutzerhandbuch