はじめに
Informatica Data Engineering Integrationについて
- Informatica Data Engineering Integrationの概要
  - 例
- Data Engineering Integrationのコンポーネントアーキテクチャ
- Data Engineering Integrationのエンジン
- Data Engineeringプロセス
- データウェアハウス最適化のマッピングの例
マッピング
- マッピングの概要
- マッピングランタイムプロパティ
- Hadoop環境でのSqoopマッピング
- マッピング出力のバインディング
- 非ネイティブ環境のマッピングのルールとガイドライン
- 非ネイティブ環境でマッピングを実行するワークフロー
- 非ネイティブ環境で実行するマッピングの設定
- マッピング実行プラン
- 非ネイティブ環境でのマッピングのトラブルシューティング
- ネイティブ環境でのマッピング
マッピングの最適化
- マッピングの最適化
- マッピングの推奨事項と分析
- 一時ステージングテーブルでのデータ圧縮の有効化
  - 手順1.Hadoop接続でのデータ圧縮の有効化
  - 手順2.Hadoop環境でのデータ圧縮の有効化
- Hiveターゲットでのパーティションの切り詰め
- スケジュール、キュー、およびノードのラベル適用
- Data Engineering Recovery
- Sqoopパススルーマッピング向けのSparkエンジン最適化
ソース
- ソースの概要
- PowerExchangeアダプタソース
- Databricksのソース
- ファイルソースHadoop上
- Hadoopのリレーショナルソース
- HiveソースHadoop上
  - PreSQLコマンドおよびPostSQLコマンド
  - Blazeエンジン上のHiveソースのルールとガイドライン
- HadoopのSqoopソース
ターゲット
- ターゲットの概要
- PowerExchangeアダプタターゲット
- Databricksのターゲット
- Hadoopでのファイルターゲット
- Hadoopでのメッセージターゲット
- Hadoopのリレーショナルターゲット
- HadoopのHiveターゲット
- HadoopのSqoopターゲット
  - Sqoopターゲットのルールとガイドライン
トランスフォーメーション
- トランスフォーメーションの概要
- 非ネイティブ環境でのアドレスバリデータトランスフォーメーション
  - Blazeエンジンでのアドレスバリデータトランスフォーメーション
  - Sparkエンジンでのアドレスバリデータトランスフォーメーション
    - アドレスバリデータトランスフォーメーションストリーミングマッピングでの
- 非ネイティブ環境でのアグリゲータトランスフォーメーション
  - Blazeエンジンでのアグリゲータトランスフォーメーション
  - Sparkエンジンでのアグリゲータトランスフォーメーション
    - ストリーミングマッピングでのアグリゲータトランスフォーメーション
  - Databricks Sparkエンジンでのアグリゲータトランスフォーメーション
- 非ネイティブ環境での大文字小文字変換トランスフォーメーション
- 非ネイティブ環境での分類子トランスフォーメーション
- 非ネイティブ環境での比較トランスフォーメーション
- 非ネイティブ環境での統合トランスフォーメーション
  - Blazeエンジンでの統合トランスフォーメーション
  - Sparkエンジンでの統合トランスフォーメーション
- 非ネイティブ環境でのデータマスキングトランスフォーメーション
  - Blazeエンジンでのデータマスキングトランスフォーメーション
  - Sparkエンジンでのデータマスキングトランスフォーメーション
    - データマスキングトランスフォーメーションストリーミングマッピングでの
- 非ネイティブ環境でのデータプロセッサトランスフォーメーション
- 非ネイティブ環境でのディシジョントランスフォーメーション
  - Sparkエンジンでのディシジョントランスフォーメーション
- 非ネイティブ環境での式トランスフォーメーション
  - Blazeエンジンでの式トランスフォーメーション
  - Sparkエンジンでの式トランスフォーメーション
    - ストリーミングマッピングでの式トランスフォーメーション
  - Databricks Sparkエンジンでの式トランスフォーメーション
- 非ネイティブ環境でのフィルタトランスフォーメーション
  - Blazeエンジンでのフィルタトランスフォーメーション
- 階層型からリレーショナルへのトランスフォーメーション（非ネイティブ環境）
- 非ネイティブ環境でのJavaトランスフォーメーション
  - BlazeエンジンでのJavaトランスフォーメーション
  - SparkエンジンでのJavaトランスフォーメーション
    - ストリーミングマッピングでのJavaトランスフォーメーション
- 非ネイティブ環境でのジョイナトランスフォーメーション
  - Blazeエンジンでのジョイナトランスフォーメーション
  - Sparkエンジンでのジョイナトランスフォーメーション
    - ストリーミングマッピングでのジョイナトランスフォーメーション
  - Databricks Sparkエンジンでのジョイナトランスフォーメーション
- 非ネイティブ環境でのキージェネレータトランスフォーメーション
- 非ネイティブ環境でのラベラトランスフォーメーション
- 非ネイティブ環境でのルックアップトランスフォーメーション
  - Blazeエンジンでのルックアップトランスフォーメーション
  - Sparkエンジンでのルックアップトランスフォーメーション
    - ストリーミングマッピングでのルックアップトランスフォーメーション
  - Databricks Sparkエンジンでのルックアップトランスフォーメーション
- 非ネイティブ環境での一致トランスフォーメーション
  - Blazeエンジンでの一致トランスフォーメーション
  - Sparkエンジンでの一致トランスフォーメーション
- 非ネイティブ環境でのマージトランスフォーメーション
- 非ネイティブ環境でのノーマライザトランスフォーメーション
- 非ネイティブ環境でのパーサートランスフォーメーション
- 非ネイティブ環境でのランクトランスフォーメーション
  - Blazeエンジンでのランクトランスフォーメーション
  - Sparkエンジンでのランクトランスフォーメーション
    - ストリーミングマッピングでのランクトランスフォーメーション
  - Databricks Sparkエンジンでのランクトランスフォーメーション
- リレーショナルから階層型へのトランスフォーメーション（非ネイティブ環境）
- 非ネイティブ環境でのルータートランスフォーメーション
- シーケンスジェネレータトランスフォーメーション非ネイティブ環境で
  - Blazeエンジンでのシーケンスジェネレータトランスフォーメーション
  - Sparkエンジンでのシーケンスジェネレータトランスフォーメーション
- 非ネイティブ環境でのソータートランスフォーメーション
  - Blazeエンジンでのソータートランスフォーメーション
  - Sparkエンジンでのソータートランスフォーメーション
    - ストリーミングマッピングでのソータトランスフォーメーション
  - Databricks Sparkエンジンでのソータートランスフォーメーション
- 非ネイティブ環境での標準化トランスフォーメーション
- 非ネイティブ環境での共有体トランスフォーメーション
  - ストリーミングマッピングでの共有体トランスフォーメーション
- 非ネイティブ環境でのアップデートストラテジトランスフォーメーション
  - Blazeエンジンでのアップデートストラテジトランスフォーメーション
  - Sparkエンジンでのアップデートストラテジトランスフォーメーション
- 非ネイティブ環境での加重平均トランスフォーメーション
Pythonトランスフォーメーション
- Pythonトランスフォーメーションの概要
- Pythonトランスフォーメーションのポート
- Pythonトランスフォーメーションの詳細プロパティ
- Pythonトランスフォーメーションのコンポーネント
  - リソースファイル
  - Pythonコード
- Pythonトランスフォーメーションのルールおよびガイドライン
  - ストリーミングマッピングでのPythonトランスフォーメーション
- Pythonトランスフォーメーションの作成
  - 再利用可能なPythonトランスフォーメーションの作成
  - 再利用不可能なPythonトランスフォーメーションの作成
- 例: IDカラムの非パーティション化データへの追加
- 例: 最も高い給与を検索するパーティションの使用
- ユースケース: トレーニング済みモデルを操作可能にする
クラスタワークフロー
- クラスタワークフローの概要
- クラスタワークフローのコンポーネント
- クラスタワークフロープロセス
- クラスタの作成タスクのプロパティ
- マッピングタスクのプロパティ
- クラスタの削除タスクの追加
- ワークフローのデプロイと実行
  - Azure HDInsightクラスタワークフロージョブの監視
プロファイル
- プロファイルの概要
- ネイティブ環境
- Hadoop環境
  - Sqoopデータソースのカラムプロファイル
- サンプリングオプション
- Informatica Developerでの単一のデータオブジェクトプロファイルの作成
- Informatica Developerでのエンタープライズ検出プロファイルの作成
- Informatica Analystでのカラムプロファイルの作成
- Informatica Analystでのエンタープライズ検出プロファイルの作成
- Informatica Analystでのスコアカードの作成
- プロファイルの監視
- プロファイリング機能のサポート
- トラブルシューティング
監視
- 監視の概要
- Hadoop環境のログ
- Blazeエンジンの監視
- Sparkエンジン監視
階層データ処理
- 階層データ処理の概要
- マッピングの開発方法階層データの処理
- 復号データ型
- 複合ポート
- 複合データ型定義
- 型設定
- 複合演算子
  - 添字演算子を使用した配列要素の抽出
  - ドット演算子を使用した構造要素の抽出
- 複合関数
- 階層データのプレビュー
階層データ処理設定
- 階層データの変換
- リレーショナルデータまたは階層データの構造データへの変換
  - 構造ポートの作成
- リレーショナルデータまたは階層データのネストされた構造データへの変換
  - ネストされた複合ポートの作成
- 階層データからの要素の抽出
  - 複合ポートからの要素の抽出
- 階層データのフラット化
  - 複合ポートのフラット化
スキーマが変更された階層データの処理
- スキーマが変更された階層データの処理の概要
- 階層データのスキーマの変更を処理する動的マッピングの開発方法
- 動的複合ポート
  - 動的ポートと動的複合ポート
  - トランスフォーメーション内の動的複合ポート
- 動的複合ポートの入力ルール
- 動的複合ポートのポートセレクタ
- 動的式
  - 例 - 動的構造を構築する動的式
- 複合演算子
- 複合関数
- 動的複合ポートのルールおよびガイドライン
- 最適化されたマッピング
ブロックチェーン
- ブロックチェーンの概要
- ブロックチェーンデータオブジェクト
- ブロックチェーンデータオブジェクト操作
- ユースケース: ブロックチェーンソースを使用した車両ライフサイクルのサービス向上
  - マッピングの概要
インテリジェント構造モデル
- インテリジェント構造モデルの概要
- インテリジェント構造検出プロセス
- ユースケース
- マッピングでのインテリジェント構造モデルの使用
- インテリジェント構造モデルのルールとガイドライン
- インテリジェント構造モデルを使用してデータを処理するためのマッピングの開発および実行方法
  - マッピングの例
- Cloud Data Integrationでのインテリジェント構造モデルの作成
ステートフルコンピューティング
- ステートフルコンピューティングの概要
- ウィンドウ化構成
- ウィンドウ関数
- ウィンドウ化例
接続
- 接続
- クラウドプロビジョニング設定
  - AWSクラウドプロビジョニング設定のプロパティ
  - Azureクラウドプロビジョニング設定のプロパティ
  - Databricksクラウドプロビジョニング設定のプロパティ
- Amazon Redshift接続のプロパティ
- Amazon S3接続のプロパティ
- ブロックチェーン接続プロパティ
- Cassandra接続のプロパティ
- Databricks接続プロパティ
- Google Analytics接続のプロパティ
- Google BigQuery接続のプロパティ
- Google Cloud Spanner接続のプロパティ
- Google Cloud Storage接続のプロパティ
- Hadoop接続プロパティ
  - Hadoopクラスタプロパティ
  - 共通プロパティ
  - 拒否ディレクトリのプロパティ
  - Blaze設定
  - Spark設定
- HDFS接続プロパティ
- HBase接続プロパティ
- MapR-DBのHBase接続のプロパティ
- Hive接続のプロパティ
- JDBC接続のプロパティ
  - JDBC接続文字列
  - Sqoopの接続レベルの引数
- JDBC V2接続のプロパティ
- Kafka接続のプロパティ
- Microsoft Azure Blobストレージ接続のプロパティ
- Microsoft Azure Cosmos DB SQL API接続のプロパティ
- Microsoft Azure Data Lake Storage Gen1接続のプロパティ
- Microsoft Azure Data Lake Storage Gen2接続プロパティ
- Microsoft Azure SQL Data Warehouse接続プロパティ
- Snowflake接続プロパティ
- ソースまたはターゲットにアクセスするための接続の作成
- Hadoop接続の作成
- Hadoop接続プロパティの設定
  - クラスタ環境変数
  - クラスタのライブラリパス
  - 共通する詳細プロパティ
  - Blazeエンジン詳細プロパティ
  - Sparkの詳細プロパティ
データ型リファレンス
- データ型リファレンスの概要
- 非ネイティブ環境でのトランスフォーメーションデータ型のサポート
- 複合ファイルデータ型とトランスフォーメーションデータ型
- Hiveのデータ型とトランスフォーメーションデータ型
  - Hiveの複合データ型
- Sqoopのデータ型
関数リファレンス
- 非ネイティブ環境での関数サポート
- 関数とデータ型の処理

ユーザーガイド

10.4.0

前へ次へ

Hive接続のプロパティ

Hive接続を利用して、Hiveデータにアクセスします。Hive接続は、データベースタイプの接続です。Hive接続は、Administratorツール、Analystツール、またはDeveloper toolで作成および管理できます。Hive接続プロパティは、特に明記されている場合を除き、大文字と小文字が区別されます。

接続プロパティの順序は、表示するツールによって異なる場合があります。

以下の表に、Hive接続のプロパティを示します。

プロパティ	説明
名前	接続の名前。この名前では、大文字と小文字が区別されず、ドメイン内で一意にする必要があります。このプロパティは、接続を作成した後に変更できます。名前は128文字以内で指定し、空白および以下の特殊文字は使用できません。 ~ ` ! $ % ^ & * ( ) - + = { [ } ] \| \ : ; " ' < , > . ? /
ID	データ統合サービスが接続の識別に使用する文字列。IDでは大文字と小文字が区別されません。255文字以下で、ドメイン内で一意である必要があります。このプロパティは、接続を作成してから変更できません。デフォルト値は接続名です。
説明	接続の説明。説明は、4000文字を超えることはできません。
場所	接続を作成するドメイン。Analystツールでは使用できません。
タイプ	接続タイプ。Hiveを選択します。
LDAPユーザー名	Hadoopクラスタでマッピングを実行するためにデータ統合サービスが偽装するユーザーのLDAPユーザー名。ユーザー名は、ネイティブ環境の［メタデータ接続文字列］または［データアクセス接続文字列］に指定するJDBC接続文字列によって決まります。 HadoopクラスタがKerberos認証を使用する場合、JDBC接続文字列のプリンシパル名とこのユーザー名が同じである必要があります。HadoopクラスタがKerberos認証を使用しない場合、ユーザー名はJDBCドライバの動作によって異なります。Hive JDBCドライバを使用すると、さまざまな方法でユーザー名を指定することができ、そのユーザー名をJDBC URLの一部にすることができます。 HadoopクラスタがKerberos認証を使用しない場合、ユーザー名はJDBCドライバの動作によって決まります。ユーザー名を指定しないと、Hadoopクラスタは次の基準に基づいてジョブを認証します。 HadoopクラスタがKerberos認証を使用しない。データ統合サービスを実行するマシンのオペレーティングシステムのプロファイルユーザー名に基づいてジョブを認証します。 HadoopクラスタがKerberos認証を使用する。ジョブの認証は、データ統合サービスのSPNに基づいて行います。LDAPユーザー名は無視されます。
パスワード	LDAPユーザー名のパスワード。
環境SQL	Hadoop環境を設定するSQLコマンド。ネイティブ環境タイプでは、データ統合サービスはHiveメタストアへの接続を作成するたびに環境SQLを実行します。Hadoopクラスタでのプロファイルの実行にHive接続を使用すると、データ統合サービスは各Hiveセッションの最初に環境SQLを実行します。どちらの接続モードでも、環境SQLの使用には以下のルールとガイドラインが適用されます。環境SQLは、Hiveクエリを指定するために使用します。環境SQLを使用してHiveユーザー定義関数のクラスパスを設定し、続いて環境SQLまたはPreSQLを使用してHiveユーザー定義関数を指定します。データオブジェクトプロパティでPreSQLを使用してクラスパスを指定することはできません。Hiveユーザー定義関数を使用する場合は、.jarファイルを次のディレクトリにコピーする必要があります。 <Informatica installation directory>/services/shared/hadoop/<Hadoop distribution name>/extras/hive-auxjars 環境SQLは、PreSQLコマンド内またはカスタムクエリ内で使用するHadoopパラメータまたはHiveパラメータを定義するために使用できます。環境SQLプロパティに複数の値を使用する場合は、値の間にスペースを含めないようにしてください。
SQL識別子文字	特殊文字とSQLの予約済みSQLキーワード（WHEREなど）の識別に使用される文字のタイプ。データ統合サービスは特殊文字と予約済みSQLキーワードを選択した文字で囲みます。データ統合サービスはこの文字を［大文字小文字が混在した識別子をサポート］プロパティにも使用します。

ソースまたはターゲットとしてHiveにアクセスするためのプロパティ

以下の表に、ソースまたはターゲットとしてHiveにアクセスするために設定する接続プロパティを示します。

プロパティ	説明
JDBCドライバクラス名	Hive JDBCドライバクラスの名前。このオプションを空白のままにすると、ディストリビューションに同梱されているデフォルトのApache Hive JDBCドライバが使用されます。デフォルトのApache Hive JDBCドライバが要件に合わない場合は、ドライバクラス名を指定することで、サードパーティのHive JDBCドライバを使用してApache Hive JDBCドライバをオーバーライドできます。
メタデータ接続文字列	Hadoopサーバーからメタデータにアクセスするために使用されるJDBC接続URI。 PowerExchange for Hiveを使用して、HiveServerサービスまたはHiveServer2サービスと通信できます。HiveServerに接続するには、次の形式で接続文字列を指定します。 jdbc:hive2://<hostname>:<port>/<db> ここで <hostname>は、HiveServer2が実行されているマシンの名前またはIPアドレスです。 <port>は、HiveServer2がリスンするポート番号です。 <db>は、接続先のデータベース名です。データベース名を指定しないと、データ統合サービスはデフォルトのデータベースの詳細を使用します。 HiveServer 2に接続するには、その特定のHadoopディストリビューション用にApache Hiveが実装する接続文字列形式を使用します。Apache Hive接続文字列形式の詳細については、Apache Hiveのドキュメントを参照してください。ユーザーの偽装については、 hive.server2.proxy.user=<xyz> をJDBC接続URIに追加する必要があります。ユーザーの偽装を設定しない場合は、現在のユーザーの資格情報を使用してHiveServer2に接続します。 HadoopクラスタがSSLまたはTLS認証を使用する場合は、 ssl=true をJDBC接続URIに追加する必要があります。例: jdbc:hive2://<hostname>:<port>/<db>;ssl=true SSLまたはTLS認証に自己署名証明書を使用する場合は、クライアントコンピュータとデータ統合サービスコンピュータで証明書ファイルが使用可能であることを確認してください。詳細については、『 Data Engineering Integrationガイド』を参照してください。
Hive JDBCサーバーをバイパス	JDBCドライバモード。埋め込みJDBCドライバモードを使用するには、チェックボックスを選択します。 JDBC埋め込みモードを使用するには、以下のタスクを実行します。 HiveクライアントとInformaticaサービスが同一のマシンにインストールされていることを確認します。 Hadoopクラスタでマッピングを実行するようにHive接続プロパティを設定します。非埋め込みモードを選択する場合は、データアクセス接続文字列を設定する必要があります。 JDBC埋め込みモードを使用することをお勧めします。
厳密に定義された認証	Hiveソースで厳密に定義された認証に従うオプションを選択すると、マッピングでは次のことに従います。行レベルとカラムレベルの制限。SentryまたはRangerのセキュリティモードが有効になっているHadoopクラスタに適用されます。データマスキングルール。Dynamic Data Maskingによって機密データを含むカラムに設定されたマスキングルールに適用されます。このオプションを選択しない場合、BlazeおよびSparkエンジンは制限とマスキングルールを無視し、制限されたデータまたは機密データが結果に含まれます。
データアクセス接続文字列	Hadoopデータストアからデータにアクセスするための接続文字列。HiveServerに接続するには、次の形式で非埋め込みJDBCモードの接続文字列を指定します。 jdbc:hive2://<hostname>:<port>/<db> ここで <hostname>は、HiveServer2が実行されているマシンの名前またはIPアドレスです。 <port>は、HiveServer2がリスンするポート番号です。 <db>は、接続先のデータベースです。データベース名を指定しないと、データ統合サービスはデフォルトのデータベースの詳細を使用します。 HiveServer 2に接続するには、特定のHadoopディストリビューション用にApache Hiveが実装する接続文字列形式を使用します。Apache Hive接続文字列形式の詳細については、Apache Hiveのドキュメントを参照してください。ユーザーの偽装については、 hive.server2.proxy.user=<xyz> をJDBC接続URIに追加する必要があります。ユーザーの偽装を設定しない場合は、現在のユーザーの資格情報を使用してHiveServer2に接続します。 HadoopクラスタがSSLまたはTLS認証を使用する場合は、 ssl=true をJDBC接続URIに追加する必要があります。例: jdbc:hive2://<hostname>:<port>/<db>;ssl=true SSLまたはTLS認証に自己署名証明書を使用する場合は、クライアントコンピュータとデータ統合サービスコンピュータで証明書ファイルが使用可能であることを確認してください。詳細については、『 Data Engineering Integrationガイド』を参照してください。
HDFS上のHiveステージングディレクトリ	Hiveステージングテーブル用のHDFSディレクトリ。Hadoop偽装ユーザーとマッピング偽装ユーザーに実行権限を付与する必要があります。このオプションは適用可能で、ネイティブ環境のHiveターゲットにデータを書き込むときに必要です。
Hiveステージングデータベース名	Hiveステージングテーブルの名前空間。 Hiveステージングデータベース名は、データアクセス接続文字列から自動的に更新されます。デフォルト名をオーバーライドする場合は、Hive接続でHiveステージングデータベース名を設定する必要があります。このオプションは、Hiveターゲットにデータを書き込むためにネイティブ環境でマッピングを実行する際に適用できます。 BlazeまたはSparkエンジンでマッピングを実行する場合、Hive接続でHiveステージングデータベース名を設定する必要はありません。データ統合サービスは、Hadoop接続で設定された値を使用します。

接続

ガイドをダウンロード

ページをウォッチ

フィードバックを送信

コミュニティ

Knowledge Base

Success Portal

Rename Saved Search

目次

ユーザーガイド

ユーザーガイド

Hive接続のプロパティ

Hive接続のプロパティ

ソースまたはターゲットとしてHiveにアクセスするためのプロパティ