In diesem Abschnitt werden neue Umwandlungsfunktionen der Spark-Engine in Version 10.2.1 erläutert.
Umwandlungsunterstützung
Ab Version 10.2.1 werden die folgenden Umwandlungen für die Spark-Engine unterstützt:
Groß-/Kleinschreibungsumwandler
Klassifizierer
Vergleich
Schlüsselgenerator
Beschriftung
Zusammenführung
Parser
Python
Standardisierer
Gewichteter Durchschnitt
Ab Version 10.2.1 werden die folgenden Umwandlungen mit Einschränkungen für die Spark-Engine unterstützt:
Adressvalidierer
Konsolidierung
Entscheidung
Match
Sequenzgenerator
Ab Version 10.2.1 gilt für die folgende Umwandlung zusätzliche Unterstützung für die Spark-Engine:
Java Unterstützt komplexe Datentypen wie array, map und struct zur Verarbeitung hierarchischer Daten.
Weitere Informationen zur Umwandlungsunterstützung finden Sie im Kapitel "Mapping-Umwandlungen in einer Hadoop-Umgebung" im
Benutzerhandbuch zu Informatica Big Data Management 10.2.1
.
Weitere Informationen zu Umwandlungsvorgängen finden Sie im
Informatica 10.2.1 Developer-Umwandlungshandbuch
.
Python-Umwandlung
Ab Version 10.2.1 können Sie im Developer Tool eine Python-Umwandlung erstellen. Verwenden Sie die Python-Umwandlung, um Python-Code in einem Mapping auszuführen, das auf der Spark-Engine läuft.
Sie können eine Python-Umwandlung verwenden, um ein Maschinenmodell auf den Daten zu implementieren, die Sie durch die Umwandlung übergeben. Verwenden Sie beispielsweise die Python-Umwandlung, um Python-Code zu schreiben, der ein vortrainiertes Modell lädt. Mit dem vorbereiteten Modell können Sie Eingabedaten klassifizieren oder Prognosen erstellen.
Die Python-Umwandlung steht für die technische Vorschau zur Verfügung. Die Funktion zur technischen Vorschau wird unterstützt, ist aber noch nicht produktionsreif. Informatica empfiehlt, diese Funktion nur in Nicht-Produktionsumgebungen zu verwenden.
Weitere Informationen finden Sie im Kapitel "Python-Umwandlung" im
Informatica 10.2.1 Developer-Umwandlungshandbuch
.
Updatestrategie-Umwandlung
Ab Version 10.2.1 können Sie Hive-MERGE-Anweisungen für Mappings, die auf der Spark-Engine laufen, um Update-Strategie-Aufgaben durchzuführen. Der Einsatz von MERGE in Abfragen ist in der Regel effizienter und steigert der Leistung.
Hive-MERGE-Anweisungen werden für die folgenden Hadoop-Distributionen unterstützt:
Amazon EMR 5.10
Azure HDInsight 3.6
Hortonworks HDP 2.6
Um Hive MERGE zu verwenden, wählen Sie die Option in den erweiterten Eigenschaften der Update-Strategieumwandlung.
Bisher verwendete der Datenintegrationsdienst INSERT-, UPDATE- und DELETE-Anweisungen, um diese Aufgabe mit einer beliebigen Laufzeit-Engine durchzuführen. Die Update-Strategieumwandlung verwendet diese Anweisungen weiterhin in den folgenden Szenarien:
Sie wählen nicht die Hive MERGE-Option.
Mappings laufen auf der Hive- oder Blaze-Maschine.
Wenn die Hadoop-Distribution Hive MERGE nicht unterstützt.
Weitere Informationen zur Verwendung einer MERGE-Anweisung in Update-Strategieumwandlungen finden Sie im Kapitel "Update-Strategieumwandlung" im
Informatica Big Data Management 10.2.1-Benutzerhandbuch