目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. クラスタワークフロー
  10. プロファイル
  11. 監視
  12. 階層データ処理
  13. 階層データ処理設定
  14. スキーマが変更された階層データの処理
  15. ブロックチェーン
  16. インテリジェント構造モデル
  17. ステートフルコンピューティング
  18. 接続
  19. データ型リファレンス
  20. 関数リファレンス

ユーザーガイド

ユーザーガイド

Hive接続のプロパティ

Hive接続のプロパティ

Hive接続を利用して、Hiveデータにアクセスします。Hive接続は、データベースタイプの接続です。Hive接続は、Administratorツール、Analystツール、またはDeveloper toolで作成および管理できます。Hive接続プロパティは、特に明記されている場合を除き、大文字と小文字が区別されます。
接続プロパティの順序は、表示するツールによって異なる場合があります。
以下の表に、Hive接続のプロパティを示します。
プロパティ
説明
名前
接続の名前。この名前では、大文字と小文字が区別されず、ドメイン内で一意にする必要があります。このプロパティは、接続を作成した後に変更できます。名前は128文字以内で指定し、空白および以下の特殊文字は使用できません。
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
データ統合サービスが接続の識別に使用する文字列。IDでは大文字と小文字が区別されません。255文字以下で、ドメイン内で一意である必要があります。このプロパティは、接続を作成してから変更できません。デフォルト値は接続名です。
説明
接続の説明。説明は、4000文字を超えることはできません。
場所
接続を作成するドメイン。Analystツールでは使用できません。
タイプ
接続タイプ。Hiveを選択します。
LDAPユーザー名
Hadoopクラスタでマッピングを実行するためにデータ統合サービスが偽装するユーザーのLDAPユーザー名。ユーザー名は、ネイティブ環境の[メタデータ接続文字列]または[データアクセス接続文字列]に指定するJDBC接続文字列によって決まります。
HadoopクラスタがKerberos認証を使用する場合、JDBC接続文字列のプリンシパル名とこのユーザー名が同じである必要があります。HadoopクラスタがKerberos認証を使用しない場合、ユーザー名はJDBCドライバの動作によって異なります。Hive JDBCドライバを使用すると、さまざまな方法でユーザー名を指定することができ、そのユーザー名をJDBC URLの一部にすることができます。
HadoopクラスタがKerberos認証を使用しない場合、ユーザー名はJDBCドライバの動作によって決まります。
ユーザー名を指定しないと、Hadoopクラスタは次の基準に基づいてジョブを認証します。
  • HadoopクラスタがKerberos認証を使用しない。データ統合サービスを実行するマシンのオペレーティングシステムのプロファイルユーザー名に基づいてジョブを認証します。
  • HadoopクラスタがKerberos認証を使用する。ジョブの認証は、データ統合サービスのSPNに基づいて行います。LDAPユーザー名は無視されます。
パスワード
LDAPユーザー名のパスワード。
環境SQL
Hadoop環境を設定するSQLコマンド。ネイティブ環境タイプでは、データ統合サービスはHiveメタストアへの接続を作成するたびに環境SQLを実行します。Hadoopクラスタでのプロファイルの実行にHive接続を使用すると、データ統合サービスは各Hiveセッションの最初に環境SQLを実行します。
どちらの接続モードでも、環境SQLの使用には以下のルールとガイドラインが適用されます。
  • 環境SQLは、Hiveクエリを指定するために使用します。
  • 環境SQLを使用してHiveユーザー定義関数のクラスパスを設定し、続いて環境SQLまたはPreSQLを使用してHiveユーザー定義関数を指定します。データオブジェクトプロパティでPreSQLを使用してクラスパスを指定することはできません。Hiveユーザー定義関数を使用する場合は、.jarファイルを次のディレクトリにコピーする必要があります。
    <Informatica installation directory>/services/shared/hadoop/<Hadoop distribution name>/extras/hive-auxjars
  • 環境SQLは、PreSQLコマンド内またはカスタムクエリ内で使用するHadoopパラメータまたはHiveパラメータを定義するために使用できます。
  • 環境SQLプロパティに複数の値を使用する場合は、値の間にスペースを含めないようにしてください。
SQL識別子文字
特殊文字とSQLの予約済みSQLキーワード(WHEREなど)の識別に使用される文字のタイプ。データ統合サービスは特殊文字と予約済みSQLキーワードを選択した文字で囲みます。データ統合サービスはこの文字を
[大文字小文字が混在した識別子をサポート]
プロパティにも使用します。

ソースまたはターゲットとしてHiveにアクセスするためのプロパティ

以下の表に、ソースまたはターゲットとしてHiveにアクセスするために設定する接続プロパティを示します。
プロパティ
説明
JDBCドライバクラス名
Hive JDBCドライバクラスの名前。このオプションを空白のままにすると、ディストリビューションに同梱されているデフォルトのApache Hive JDBCドライバが使用されます。デフォルトのApache Hive JDBCドライバが要件に合わない場合は、ドライバクラス名を指定することで、サードパーティのHive JDBCドライバを使用してApache Hive JDBCドライバをオーバーライドできます。
メタデータ接続文字列
Hadoopサーバーからメタデータにアクセスするために使用されるJDBC接続URI。
PowerExchange for Hiveを使用して、HiveServerサービスまたはHiveServer2サービスと通信できます。HiveServerに接続するには、次の形式で接続文字列を指定します。
jdbc:hive2://<hostname>:<port>/<db>
ここで
  • <hostname>は、HiveServer2が実行されているマシンの名前またはIPアドレスです。
  • <port>は、HiveServer2がリスンするポート番号です。
  • <db>は、接続先のデータベース名です。データベース名を指定しないと、データ統合サービスはデフォルトのデータベースの詳細を使用します。
HiveServer 2に接続するには、その特定のHadoopディストリビューション用にApache Hiveが実装する接続文字列形式を使用します。Apache Hive接続文字列形式の詳細については、Apache Hiveのドキュメントを参照してください。
ユーザーの偽装については、
hive.server2.proxy.user=<xyz>
をJDBC接続URIに追加する必要があります。ユーザーの偽装を設定しない場合は、現在のユーザーの資格情報を使用してHiveServer2に接続します。
HadoopクラスタがSSLまたはTLS認証を使用する場合は、
ssl=true
をJDBC接続URIに追加する必要があります。例:
jdbc:hive2://<hostname>:<port>/<db>;ssl=true
SSLまたはTLS認証に自己署名証明書を使用する場合は、クライアントコンピュータとデータ統合サービスコンピュータで証明書ファイルが使用可能であることを確認してください。詳細については、『
Data Engineering Integrationガイド
』を参照してください。
Hive JDBCサーバーをバイパス
JDBCドライバモード。埋め込みJDBCドライバモードを使用するには、チェックボックスを選択します。
JDBC埋め込みモードを使用するには、以下のタスクを実行します。
  • HiveクライアントとInformaticaサービスが同一のマシンにインストールされていることを確認します。
  • Hadoopクラスタでマッピングを実行するようにHive接続プロパティを設定します。
非埋め込みモードを選択する場合は、データアクセス接続文字列を設定する必要があります。
JDBC埋め込みモードを使用することをお勧めします。
厳密に定義された認証
Hiveソースで厳密に定義された認証に従うオプションを選択すると、マッピングでは次のことに従います。
  • 行レベルとカラムレベルの制限。SentryまたはRangerのセキュリティモードが有効になっているHadoopクラスタに適用されます。
  • データマスキングルール。Dynamic Data Maskingによって機密データを含むカラムに設定されたマスキングルールに適用されます。
このオプションを選択しない場合、BlazeおよびSparkエンジンは制限とマスキングルールを無視し、制限されたデータまたは機密データが結果に含まれます。
データアクセス接続文字列
Hadoopデータストアからデータにアクセスするための接続文字列。HiveServerに接続するには、次の形式で非埋め込みJDBCモードの接続文字列を指定します。
jdbc:hive2://<hostname>:<port>/<db>
ここで
  • <hostname>は、HiveServer2が実行されているマシンの名前またはIPアドレスです。
  • <port>は、HiveServer2がリスンするポート番号です。
  • <db>は、接続先のデータベースです。データベース名を指定しないと、データ統合サービスはデフォルトのデータベースの詳細を使用します。
HiveServer 2に接続するには、特定のHadoopディストリビューション用にApache Hiveが実装する接続文字列形式を使用します。Apache Hive接続文字列形式の詳細については、Apache Hiveのドキュメントを参照してください。
ユーザーの偽装については、
hive.server2.proxy.user=<xyz>
をJDBC接続URIに追加する必要があります。ユーザーの偽装を設定しない場合は、現在のユーザーの資格情報を使用してHiveServer2に接続します。
HadoopクラスタがSSLまたはTLS認証を使用する場合は、
ssl=true
をJDBC接続URIに追加する必要があります。例:
jdbc:hive2://<hostname>:<port>/<db>;ssl=true
SSLまたはTLS認証に自己署名証明書を使用する場合は、クライアントコンピュータとデータ統合サービスコンピュータで証明書ファイルが使用可能であることを確認してください。詳細については、『
Data Engineering Integrationガイド
』を参照してください。
HDFS上のHiveステージングディレクトリ
Hiveステージングテーブル用のHDFSディレクトリ。Hadoop偽装ユーザーとマッピング偽装ユーザーに実行権限を付与する必要があります。
このオプションは適用可能で、ネイティブ環境のHiveターゲットにデータを書き込むときに必要です。
Hiveステージングデータベース名
Hiveステージングテーブルの名前空間。
Hiveステージングデータベース名は、データアクセス接続文字列から自動的に更新されます。デフォルト名をオーバーライドする場合は、Hive接続でHiveステージングデータベース名を設定する必要があります。
このオプションは、Hiveターゲットにデータを書き込むためにネイティブ環境でマッピングを実行する際に適用できます。
BlazeまたはSparkエンジンでマッピングを実行する場合、Hive接続でHiveステージングデータベース名を設定する必要はありません。データ統合サービスは、Hadoop接続で設定された値を使用します。