Inhaltsverzeichnis

Search

  1. Vorwort
  2. Befehlszeilenprogramme und Dienstprogramme
  3. Installieren und Konfigurieren von Befehlszeilendienstprogrammen
  4. Verwenden der Befehlszeilenprogramme
  5. Umgebungsvariablen für Befehlszeilenprogramme
  6. Verwenden von infacmd
  7. infacmd as-Befehlsreferenz
  8. infacmd aud-Befehlsreferenz
  9. infacmd autotune-Befehlsreferenz
  10. Infacmd bg-Befehlsreferenz
  11. infacmd ccps-Befehlsreferenz
  12. infacmd cluster-Befehlsreferenz
  13. infacmd cms-Befehlsreferenz
  14. infacmd dis-Befehlsreferenz
  15. Infacmd dis-Abfragen
  16. infacmd dp-Befehlsreferenz
  17. infacmd idp-Befehlsreferenz
  18. infacmd edpl-Befehlsreferenz
  19. Infacmd es-Befehlsreferenz
  20. infacmd ihs-Befehlsreferenz
  21. infacmd ipc-Befehlsreferenz
  22. Infacmd isp-Befehlsreferenz
  23. infacmd ldm-Befehlsreferenz
  24. infacmd mas-Befehlsreferenz
  25. infacmd mi-Befehlsreferenz
  26. infacmd mrs-Befehlsreferenz
  27. infacmd ms-Befehlsreferenz
  28. Infacmd oie-Befehlsreferenz
  29. infacmd ps-Befehlsreferenz
  30. infacmd pwx-Befehlsreferenz
  31. infacmd roh-Befehlsreferenz
  32. infacmd rms-Befehlsreferenz
  33. infacmd rtm-Befehlsreferenz
  34. infacmd sch-Befehlsreferenz
  35. infacmd search-Befehlsreferenz
  36. infacmd sql-Befehlsreferenz
  37. infacmd tdm-Befehlsreferenz
  38. infacmd tools-Befehlsreferenz
  39. infacmd wfs-Befehlsreferenz
  40. infacmd ws-Befehlsreferenz
  41. infacmd xrf-Befehlsreferenz
  42. infacmd-Steuerdateien
  43. infasetup-Befehlsreferenz
  44. Pmcmd-Befehlsreferenz
  45. pmrep-Befehlsreferenz
  46. Arbeiten mit filemanager
  47. Arbeiten mit pmrep-Dateien

Befehlsreferenz

Befehlsreferenz

Hive-Verbindungsoptionen

Hive-Verbindungsoptionen

Verwenden Sie Verbindungsoptionen zum Definieren einer Hive-Verbindung.
Geben Sie Verbindungsoptionen im folgenden Format ein:
... -o option_name='value' option_name='value' ...
Wenn Sie mehrere Optionen eingeben, trennen Sie diese durch ein Leerzeichen.
Die folgende Tabelle beschreibt Hive-Verbindungsoptionen für infacmd isp CreateConnection- und UpdateConnection-Befehle, die Sie konfigurieren, wenn Sie die Hive-Verbindung verwenden möchten:
Option
Beschreibung
connectionType
Erforderlich. Verbindungstyp ist HIVE.
name
Der Name der Verbindung. Der Name unterliegt nicht der Groß-/Kleinschreibung und muss innerhalb der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung ändern. Der Name darf nicht mehr als 128 Zeichen und weder Leerzeichen noch die folgenden Sonderzeichen enthalten:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
environmentSQL
SQL-Befehle zum Einrichten der Hadoop-Umgebung. Im nativen Umgebungstyp führt der Datenintegrationsdienst die Umgebungs-SQL jedes Mal aus, wenn er eine Verbindung zum Hive-Metastore herstellt. Wenn die Hive-Verbindung zum Ausführen von Mappings im Hadoop-Cluster verwendet wird, führt der Datenintegrationsdienst die Umgebungs-SQL am Anfang jeder Hive-Sitzung aus.
Die folgenden Regeln und Richtlinien gelten für die Verwendung von Umgebungs-SQL in beiden Verbindungsmodi:
  • Verwenden Sie die Umgebungs-SQL, um Hive-Abfragen anzugeben.
  • Verwenden Sie die Umgebungs-SQL, um den Klassenpfad für benutzerdefinierte Hive-Funktionen einzustellen und verwenden Sie dann entweder Umgebungs-SQL oder PreSQL, um die benutzerdefinierten Hive-Funktionen anzugeben. Sie können PreSQL nicht in den Datenobjekteigenschaften zur Angabe des Klassenpfads verwenden. Wenn Sie benutzerdefinierte Hive-Funktionen verwenden, müssen Sie die JAR-Dateien in das folgende Verzeichnis kopieren:
    <Informatica-Installationsverzeichnis>/services/shared/hadoop/<Name der Hadoop-Distribution>/extras/hive-auxjars
  • Sie können auch Umgebungs-SQL zum Definieren von Hadoop- oder Hive-Parametern verwenden, die Sie in den PreSQL-Befehlen oder in benutzerspezifischen Abfragen nutzen möchten.
Wenn die Hive-Verbindung zum Ausführen von Mappings im Hadoop-Cluster verwendet wird, wird nur die Umgebungs-SQL der Hive-Verbindung ausgeführt. Die verschiedenen Umgebungs-SQL-Befehle für die Verbindungen von Hive-Quelle oder -Ziel werden nicht ausgeführt, selbst wenn sich Hive-Quellen und -Ziele in verschiedenen Clustern befinden.
quoteChar
Der Zeichentyp, der zur Kennzeichnung von Sonderzeichen und reservierten SQL-Schlüsselwörtern, wie WHERE, verwendet wird. Der Datenintegrationsdienst schließt mit dem ausgewählten Zeichen Sonderzeichen und reservierte SQL-Schlüsselwörter ein. Außerdem nutzt der Datenintegrationsdienst dieses Zeichen für die Eigenschaft
Unterstützte IDs mit gemischter Groß-/Kleinschreibung
.
clusterConfigId
Die Cluster-Konfigurations-ID, die dem Hadoop-Cluster zugeordnet ist. Sie müssen eine Konfigurations-ID eingeben, um eine Hadoop-Verbindung einzurichten.

Eigenschaften für den Zugriff auf Hive als Quelle oder Ziel

Die folgende Tabelle beschreibt die erforderlichen Optionen für infacmd isp CreateConnection- und UpdateConnection-Befehle, die Sie konfigurieren, wenn Sie die Hive-Verbindung für den Zugriff auf Daten verwenden möchten:
Eigenschaft
Beschreibung
hiveJdbcDriverClassName
Name der JDBC-Treiberklasse.
metadataConnString
Der JDBC-Verbindungs-URI für den Zugriff auf die Metadaten des Hadoop-Servers.
Die Verbindungszeichenfolge verwendet das folgende Format:
jdbc:hive://<hostname>:<port>/<db>
Wobei
  • hostname
    der Name oder die IP-Adresse des Rechners ist, auf dem der Hive-Server ausgeführt wird
  • port
    der Port ist, auf dem der Hive-Server abhört
  • db
    die Datenbank ist, zu der Sie eine Verbindung herstellen möchten. Wenn Sie die Datenbankdetails nicht zur Verfügung stellen, verwendet der Datenintegrationsdienst die standardmäßigen Datenbank-Details.
Zum Herstellen einer Verbindung zu HiveServer 2 verwenden Sie das Verbindungsstringformat, das Apache Hive für diese bestimmte Hadoop-Verteilung implementiert. Weitere Informationen über Apache Hive-Verbindungsstringformate finden Sie in der Apache Hive-Dokumentation.
Wenn der Hadoop-Cluster SSL- oder TLS-Authentifizierung verwendet, müssen Sie dem JDBC-Verbindungs-URI ssl=true hinzufügen. Beispiel:
jdbc:hive2://<Hostname>:<Port>/<db>;ssl=true
Wenn Sie selbstsignierte Zertifikate für die SSL- oder TLS-Authentifizierung verwenden, stellen Sie sicher, dass die Zertifikatsdatei auf dem Client- und dem Datenintegrationsdienst-Computer verfügbar ist. Weitere Informationen finden Sie im
Informatica Big Data Management-Cluster-Integrationshandbuch
.
bypassHiveJDBCServer
JDBC-Treibermodus. Aktivieren Sie diese Option zur Verwendung des eingebetteten JDBC-Treibers (eingebetteter Modus).
Zur Verwendung des eingebetteten JDBC-Modus führen Sie folgende Aufgaben durch:
  • Stellen Sie sicher, dass Hive-Client und Informatica-Dienste auf demselben Rechner installiert sind.
  • Konfigurieren Sie die Hive-Verbindungseigenschaften zum Ausführen von Mappings im Hadoop-Cluster.
Wenn Sie den nicht eingebetteten Modus wählen, müssen Sie den Verbindungszeichenfolge für Datenzugriff konfigurieren.
Der eingebettete JDBC-Modus wird dem nicht eingebetteten Modus vorgezogen.
sqlAuthorized
Wenn Sie die Option auswählen, um differenzierte SQL-Authentifizierung in einer Hive-Quelle zu berücksichtigen, berücksichtigt das Mapping Einschränkungen für den Datenzugriff auf Zeilen- und Spaltenebene. Wenn Sie die Option nicht auswählen, ignoriert die Blaze-Laufzeit-Engine die Einschränkungen, und die Ergebnisse enthalten eingeschränkte Daten.
Anwendbar auf Hadoop-Cluster, in denen die Sicherheitsmodi „Sentry“ oder „Ranger“ aktiviert sind.
connectString
Die Verbindungszeichenfolge, die zum Zugriff auf Daten aus dem Hadoop-Datenspeicher verwendet wird. Die Verbindungszeichenfolge des nicht eingebetteten JDBC-Modus muss das folgende Format haben:
jdbc:hive://<hostname>:<port>/<db>
Wobei
  • hostname
    der Name oder die IP-Adresse des Rechners ist, auf dem der Hive-Server ausgeführt wird.
  • port
    der Port ist, auf dem der Hive-Server abhört. Der Standardwert ist 10000.
  • db
    die Datenbank ist, zu der Sie eine Verbindung herstellen möchten. Wenn Sie die Datenbankdetails nicht zur Verfügung stellen, verwendet der Datenintegrationsdienst die standardmäßigen Datenbank-Details.
Zum Herstellen einer Verbindung zu HiveServer 2 verwenden Sie das Verbindungsstringformat, das Apache Hive für diese bestimmte Hadoop-Verteilung implementiert. Weitere Informationen über Apache Hive-Verbindungsstringformate finden Sie in der Apache Hive-Dokumentation.
Wenn der Hadoop-Cluster SSL- oder TLS-Authentifizierung verwendet, müssen Sie dem JDBC-Verbindungs-URI ssl=true hinzufügen. Beispiel:
jdbc:hive2://<Hostname>:<Port>/<db>;ssl=true
Wenn Sie selbstsignierte Zertifikate für die SSL- oder TLS-Authentifizierung verwenden, stellen Sie sicher, dass die Zertifikatsdatei auf dem Client- und dem Datenintegrationsdienst-Computer verfügbar ist. Weitere Informationen finden Sie im
Informatica Big Data Management-Cluster-Integrationshandbuch
.

Eigenschaften zum Ausführen von Mappings im Hadoop-Cluster

Die folgende Tabelle beschreibt die erforderlichen Optionen für infacmd isp CreateConnection- und UpdateConnection-Befehle, die Sie konfigurieren, wenn Sie die Hive-Verbindung zum Ausführen von Informatica-Mappings im Hadoop-Cluster verwenden möchten:
Eigenschaft
Beschreibung
databaseName
Namespace für Tabellen. Verwenden Sie den Namen
default
für Tabellen, bei denen kein Datenbankname angegeben wurde.
customProperties
Konfiguriert oder überschreibt Hive- oder Hadoop-Cluster-Eigenschaften in der hive-site.xml-Konfiguration auf dem Computer, auf dem der Datenintegrationsdienst ausgeführt wird. Sie können mehrere Eigenschaften angeben.
Wählen Sie
Bearbeiten
aus, um den Namen und den Wert für die Eigenschaft anzugeben. Die Eigenschaft wird im folgenden Format angezeigt:
<property1>=<value>
Wenn Sie mehrere Eigenschaften angeben, wird
&:
als Trennzeichen für die Eigenschaften angezeigt.
Die maximale Länge für das Format ist 1 MB.
Wenn Sie eine erforderliche Eigenschaft für eine Hive-Verbindung eingeben, überschreibt diese die Eigenschaft, die Sie in den erweiterten Hive- bzw. Hadoop-Eigenschaften konfigurieren.
Der Datenintegrationsdienst fügt diese Eigenschaften für jeden map-reduce-Job hinzu bzw. legt diese fest. Sie können diese Eigenschaften in der JobConf jedes mapper- oder reducer-Jobs überprüfen. Greifen Sie auf die JobConf jedes Jobs über die Jobtracker-URL unter jedem map-reduce-Job zu.
Der Datenintegrationsdienst schreibt Meldungen für diese Eigenschaften in die Datenintegrationsdienst-Protokolle. Die Protokoll-Tracingebene im Datenintegrationsdienst muss so eingestellt sein, dass jede Zeile protokolliert wird. Alternativ dazu kann Verbose-Initialisierungstracing als Protokoll-Tracingebene eingestellt sein.
Geben Sie zum Beispiel die folgenden Eigenschaften an, um die Anzahl der reducer-Jobs zur Ausführung eines mapping-Jobs zu begrenzen:
mapred.reduce.tasks=2&:hive.exec.reducers.max=10
stgDataCompressionCodecClass
Codec-Klassenname, der Datenkomprimierung ermöglicht und die Leistung in temporären Staging-Tabellen verbessert. Der Codec-Klassenname entspricht dem Code-Typ.
stgDataCompressionCodecType
Hadoop-Komprimierungsbibliothek für einen Komprimierungs-Codec-Klassennamen.
Sie können „Keine“, „Zlib“, „Gzip“, „Snappy“, „Bz2“, „LZO“ oder „Benutzerdefiniert“ auswählen.
Standardwert ist „Keine“.