はじめに
Informatica Data Engineering Integrationについて
- Informatica Data Engineering Integrationの概要
  - 例
- Data Engineering Integrationのコンポーネントアーキテクチャ
- Data Engineering Integrationのエンジン
- Data Engineeringプロセス
- データウェアハウス最適化のマッピングの例
マッピング
- マッピングの概要
- マッピングランタイムプロパティ
- JDBCソースへのPreSQLクエリとPostSQLクエリ
- Hadoop環境でのSqoopマッピング
- マッピング出力のバインディング
- 非ネイティブ環境のマッピングのルールとガイドライン
- 非ネイティブ環境でマッピングを実行するワークフロー
- 非ネイティブ環境で実行するマッピングの設定
  - Dataprocで実行するマッピングの設定
- 監査
- マッピング実行プラン
- 非ネイティブ環境でのマッピングのトラブルシューティング
- ネイティブ環境でのマッピング
マッピングの最適化
- マッピングの最適化
- マッピングの推奨事項と分析
- 一時ステージングテーブルでのデータ圧縮の有効化
  - 手順1.Hadoop接続でのデータ圧縮の有効化
  - 手順2.Hadoop環境でのデータ圧縮の有効化
- Hiveターゲットでのパーティションの切り詰め
- Hive Warehouse ConnectorおよびHive LLAP
  - Hive WarehouseコネクタとHive LLAPの有効化
- スケジュール、キュー、およびノードのラベル適用
- Data Engineering Recovery
- Sqoopパススルーマッピング向けのSparkエンジン最適化
ソース
- ソースの概要
- PowerExchangeアダプタソース
- Databricksのソース
- Hadoopのファイルソース
- Hadoopのリレーショナルソース
- HiveソースHadoop上
  - PreSQLコマンドおよびPostSQLコマンド
  - Blazeエンジン上のHiveソースのルールとガイドライン
- HadoopのSqoopソース
ターゲット
- ターゲットの概要
- PowerExchangeアダプタターゲット
- Databricksのターゲット
- Hadoopでのファイルターゲット
- Hadoopでのメッセージターゲット
- Hadoopのリレーショナルターゲット
- HadoopのHiveターゲット
- HadoopのSqoopターゲット
  - Sqoopターゲットのルールとガイドライン
トランスフォーメーション
- トランスフォーメーションの概要
- 非ネイティブ環境でのアドレスバリデータトランスフォーメーション
  - Blazeエンジンでのアドレスバリデータトランスフォーメーション
  - Sparkエンジンでのアドレスバリデータトランスフォーメーション
    - アドレスバリデータトランスフォーメーションストリーミングマッピングでの
  - アドレスバリデータトランスフォーメーション（Databricks Sparkエンジン）
- 非ネイティブ環境でのアグリゲータトランスフォーメーション
  - Blazeエンジンでのアグリゲータトランスフォーメーション
  - Sparkエンジンでのアグリゲータトランスフォーメーション
    - ストリーミングマッピングでのアグリゲータトランスフォーメーション
  - Databricks Sparkエンジンでのアグリゲータトランスフォーメーション
- 非ネイティブ環境での大文字小文字変換トランスフォーメーション
- 非ネイティブ環境での分類子トランスフォーメーション
- 非ネイティブ環境での比較トランスフォーメーション
- 非ネイティブ環境での統合トランスフォーメーション
  - Blazeエンジンでの統合トランスフォーメーション
  - Sparkエンジンでの統合トランスフォーメーション
  - Databricks Sparkエンジンでの統合トランスフォーメーション
- 非ネイティブ環境でのデータマスキングトランスフォーメーション
  - Blazeエンジンでのデータマスキングトランスフォーメーション
  - Sparkエンジンでのデータマスキングトランスフォーメーション
    - データマスキングトランスフォーメーションストリーミングマッピングでの
- 非ネイティブ環境でのデータプロセッサトランスフォーメーション
- 非ネイティブ環境でのディシジョントランスフォーメーション
  - Sparkエンジンでのディシジョントランスフォーメーション
  - Databricks Sparkエンジンでのディシジョントランスフォーメーション
- 非ネイティブ環境での式トランスフォーメーション
  - Blazeエンジンでの式トランスフォーメーション
  - Sparkエンジンでの式トランスフォーメーション
    - ストリーミングマッピングでの式トランスフォーメーション
  - Databricks Sparkエンジンでの式トランスフォーメーション
- 非ネイティブ環境でのフィルタトランスフォーメーション
  - Blazeエンジンでのフィルタトランスフォーメーション
- 階層型からリレーショナルへのトランスフォーメーション（非ネイティブ環境）
- 非ネイティブ環境でのJavaトランスフォーメーション
  - BlazeエンジンでのJavaトランスフォーメーション
  - SparkエンジンでのJavaトランスフォーメーション
    - ストリーミングマッピングでのJavaトランスフォーメーション
- 非ネイティブ環境でのジョイナトランスフォーメーション
  - Blazeエンジンでのジョイナトランスフォーメーション
  - Sparkエンジンでのジョイナトランスフォーメーション
    - ストリーミングマッピングでのジョイナトランスフォーメーション
  - Databricks Sparkエンジンでのジョイナトランスフォーメーション
- 非ネイティブ環境でのキージェネレータトランスフォーメーション
  - Blazeエンジンでのキージェネレータトランスフォーメーション
  - Sparkエンジンでのキージェネレータトランスフォーメーション
  - Databricks Sparkエンジンでのキージェネレータトランスフォーメーション
- 非ネイティブ環境でのラベラトランスフォーメーション
- 非ネイティブ環境でのルックアップトランスフォーメーション
  - Lookup Transformation on the Blaze Engine
  - Lookup Transformation on the Spark Engine
    - ストリーミングマッピングでのルックアップトランスフォーメーション
  - Lookup Transformation on the Databricks Spark Engine
- 非ネイティブ環境でのマクロトランスフォーメーション
- 非ネイティブ環境での一致トランスフォーメーション
  - Blazeエンジンでの一致トランスフォーメーション
  - Sparkエンジンでの一致トランスフォーメーション
  - Databricks Sparkエンジンでの一致トランスフォーメーション
- 非ネイティブ環境でのマージトランスフォーメーション
- 非ネイティブ環境でのノーマライザトランスフォーメーション
- 非ネイティブ環境でのパーサートランスフォーメーション
- 非ネイティブ環境でのランクトランスフォーメーション
  - Blazeエンジンでのランクトランスフォーメーション
  - Sparkエンジンでのランクトランスフォーメーション
    - ストリーミングマッピングでのランクトランスフォーメーション
  - Databricks Sparkエンジンでのランクトランスフォーメーション
- リレーショナルから階層型へのトランスフォーメーション（非ネイティブ環境）
- 非ネイティブ環境でのルータートランスフォーメーション
- 非ネイティブ環境でのルール仕様トランスフォーメーション
- シーケンスジェネレータトランスフォーメーション非ネイティブ環境で
  - Blazeエンジンでのシーケンスジェネレータトランスフォーメーション
  - Sparkエンジンでのシーケンスジェネレータトランスフォーメーション
  - シーケンスジェネレータトランスフォーメーションDatabricks Sparkエンジン
- 非ネイティブ環境でのソータートランスフォーメーション
  - Blazeエンジンでのソータートランスフォーメーション
  - Sparkエンジンでのソータートランスフォーメーション
    - ストリーミングマッピングでのソータトランスフォーメーション
  - Databricks Sparkエンジンでのソータートランスフォーメーション
- 非ネイティブ環境での標準化トランスフォーメーション
- 非ネイティブ環境での共有体トランスフォーメーション
  - ストリーミングマッピングでの共有体トランスフォーメーション
- 非ネイティブ環境でのアップデートストラテジトランスフォーメーション
  - Blazeエンジンでのアップデートストラテジトランスフォーメーション
  - Sparkエンジンでのアップデートストラテジトランスフォーメーション
  - Databricks Sparkエンジンでのアップデートストラテジトランスフォーメーション
- 非ネイティブ環境での加重平均トランスフォーメーション
Pythonトランスフォーメーション
- Pythonトランスフォーメーションの概要
- Pythonトランスフォーメーションのポート
- Pythonトランスフォーメーションの詳細プロパティ
- Pythonトランスフォーメーションのコンポーネント
  - リソースファイル
  - Pythonコード
- Pythonトランスフォーメーションのルールおよびガイドライン
  - ストリーミングマッピングでのPythonトランスフォーメーション
- Pythonトランスフォーメーションの作成
  - 再利用可能なPythonトランスフォーメーションの作成
  - 再利用不可能なPythonトランスフォーメーションの作成
- 例: IDカラムの非パーティション化データへの追加
- 例: 最も高い給与を検索するパーティションの使用
- ユースケース: トレーニング済みモデルを操作可能にする
データプレビュー
- データプレビューの概要
  - データプレビューをサポートする接続およびクラスタディストリビューション
- データプレビュープロセス
- データのプレビュー
- 階層データのデータプレビューインタフェース
- データプレビュートランスフォーメーションでの
- データプレビューログ
- Sparkエンジンでのデータプレビューに関するルールとガイドライン
クラスタワークフロー
- クラスタワークフローの概要
  - クラスタワークフロープラットフォームのサポート
- クラスタワークフローのコンポーネント
- クラスタワークフロープロセス
- ワークフローとクラスタの作成タスクの作成
- クラスタ作成用のパラメータを設定できる場所
  - Developerツールを使用したクラスタの作成プロパティの設定
  - JSONファイルを使用したクラスタの作成プロパティの設定
    - JSONファイルの作成
    - JSONファイルの有効化
- マッピングタスクの追加
- クラスタの削除タスクの追加
- ワークフローのデプロイと実行
  - Azure HDInsightクラスタワークフロージョブの監視
- ウォームプールを使用したDatabricksクラスタの設定
- クラスタの作成タスクのプロパティ
プロファイル
- プロファイルの概要
- ネイティブ環境
- Hadoop環境
  - Sqoopデータソースのカラムプロファイル
- サンプリングオプション
- Informatica Developerでの単一のデータオブジェクトプロファイルの作成
- Informatica Developerでのエンタープライズ検出プロファイルの作成
- Informatica Analystでのカラムプロファイルの作成
- Informatica Analystでのエンタープライズ検出プロファイルの作成
- Informatica Analystでのスコアカードの作成
- プロファイルの監視
- プロファイリング機能のサポート
- トラブルシューティング
監視
- 監視の概要
- Hadoop環境のログ
- Blazeエンジンの監視
- Sparkエンジン監視
階層データ処理
- 階層データ処理の概要
- マッピングの開発方法階層データの処理
- 復号データ型
- 複合ポート
- 複合データ型定義
- 型設定
- 複合演算子
  - 添字演算子を使用した配列要素の抽出
  - ドット演算子を使用した構造要素の抽出
- 複合関数
- Sparkエンジンでの階層データの処理に関するルールとガイドライン
- 階層データのミッドストリーム解析
階層データ処理設定
- 階層データの変換
- リレーショナルデータまたは階層データの構造データへの変換
  - 構造ポートの作成
- リレーショナルデータまたは階層データのネストされた構造データへの変換
  - ネストされた複合ポートの作成
- 階層データからの要素の抽出
  - 複合ポートからの要素の抽出
- 階層データのフラット化
  - 複合ポートのフラット化
スキーマが変更された階層データの処理
- スキーマが変更された階層データの処理の概要
- 階層データのスキーマの変更を処理する動的マッピングの開発方法
- スキーマが変更された階層データのフラット化
  - 動的構造体のフラット化
- 動的複合ポート
  - 動的ポートと動的複合ポート
  - トランスフォーメーション内の動的複合ポート
- 動的複合ポートの入力ルール
- 動的複合ポートのポートセレクタ
- 動的式
  - 例 - 動的構造を構築する動的式
- 複合演算子
- 複合関数
- 動的複合ポートのルールおよびガイドライン
- 最適化されたマッピング
インテリジェント構造モデル
- インテリジェント構造モデルの概要
- インテリジェント構造検出プロセス
- ユースケース
- マッピングでのインテリジェント構造モデルの使用
- インテリジェント構造モデルのルールとガイドライン
- インテリジェント構造モデルを使用してマッピングを作成する方法
  - マッピングの例
- Cloud Data Integrationでのインテリジェント構造モデルの作成
ブロックチェーン
- ブロックチェーンの概要
  - ブロックチェーンのプロセス
- ブロックチェーンデータオブジェクト
- ブロックチェーンデータオブジェクト操作
- ユースケース: ブロックチェーンソースを使用した車両ライフサイクルのサービス向上
  - マッピングの概要
ステートフルコンピューティング
- ステートフルコンピューティングの概要
- ウィンドウ化構成
- ウィンドウ関数
- ウィンドウ化例
付録 A: 接続リファレンス
- 接続の概要
- クラウドプロビジョニング設定
  - AWSクラウドプロビジョニング設定のプロパティ
  - Azureクラウドプロビジョニング設定のプロパティ
  - Databricksクラウドプロビジョニング設定のプロパティ
- Amazon Redshift接続のプロパティ
- Amazon S3接続のプロパティ
- ブロックチェーン接続プロパティ
- Cassandra接続のプロパティ
- Confluent Kafka接続
  - 全般プロパティ
  - Confluent Kafka Brokerのプロパティ
  - SSLプロパティ
  - infacmdを使用したConfluent Kafka接続の作成
- Databricks接続プロパティ
- Google Analytics接続のプロパティ
- Google BigQuery接続のプロパティ
- Google Cloud Spanner接続のプロパティ
- Google Cloud Storage接続のプロパティ
- Google PubSub接続のプロパティ
- Hadoop接続プロパティ
  - Hadoopクラスタプロパティ
  - 共通プロパティ
  - 拒否ディレクトリのプロパティ
  - Blaze設定
  - Spark設定
- HDFSまたはView File System（ViewFS）接続プロパティ
- HBase接続プロパティ
- MapR-DBのHBase接続のプロパティ
- Hive接続のプロパティ
- JDBC接続のプロパティ
  - JDBC接続文字列
  - Sqoopの接続レベルの引数
  - Delta LakeのJDBC接続プロパティ
- JDBC V2接続のプロパティ
- Kafka接続のプロパティ
  - 全般プロパティ
  - Kafka Brokerのプロパティ
  - SSLプロパティ
  - infacmdを使用したKafka接続の作成
- Kudu接続プロパティ
- Microsoft Azure Blobストレージ接続のプロパティ
- Microsoft Azure Cosmos DB SQL API接続のプロパティ
- Microsoft Azure Data Lake Storage Gen1接続のプロパティ
- Microsoft Azure Data Lake Storage Gen2接続のプロパティ
- Microsoft Azure SQL Data Warehouse接続プロパティ
- Snowflake接続プロパティ
- ソースまたはターゲットにアクセスするための接続の作成
- Hadoop接続の作成
- Hadoop接続プロパティの設定
  - クラスタ環境変数
  - クラスタのライブラリパス
  - 共通する詳細プロパティ
  - Blazeエンジン詳細プロパティ
  - Sparkの詳細プロパティ
付録 B: データ型リファレンス
- データ型リファレンスの概要
- 非ネイティブ環境でのトランスフォーメーションデータ型のサポート
- 複合ファイルデータ型とトランスフォーメーションデータ型
- フラットファイルとトランスフォーメーションデータ型
- Hiveのデータ型とトランスフォーメーションデータ型
  - Hiveの複合データ型
- Sqoopのデータ型
付録 C: 関数リファレンス
- 非ネイティブ環境での関数サポート
- 関数とデータ型の処理

ユーザーガイド

10.5.7

前へ次へ

非ネイティブ環境でのマッピングのトラブルシューティング

非ネイティブ環境でのマッピングのトラブルシューティングのヒントを考慮します。

Hadoop環境

別のクラスタ上のHiveソースまたはHiveターゲットでマッピングを実行すると、データ統合サービスで次のエラーが発生して、Hadoopへのマッピングのプッシュに失敗する: [exec0_query_6]が原因で、クエリの実行に失敗しました。エラーコード[10]、エラーメッセージ: [FAILED: セマンティック分析のエラー: 行1:181 テーブルが見つかりませんcustomer_eur]、およびSQL状態[42000]]。: Hadoop環境でマッピングを実行する場合は、Hiveソース/ターゲットに対して選択したHive接続とマッピングが同じHiveメタストア上にある必要があります。
SQLオーバーライドとマッピングを並列実行すると、マッピングがハングする。: クラスタが異なるエンジン間で共有されているため、使用可能なリソースが不十分です。; BlazeエンジンとSparkエンジンとで別々のYARNスケジューラキューを使用し、該当するエンジン経由でHiveServer2がSQLオーバーライドを実行できるようにします。
Blazeエンジン上で実行されるマッピングが失敗し、次のプリエンプションエラーメッセージが出力される。: 2018-09-27 11:05:27.208 INFO: Container completion status: id [container_e135_1537815195064_4755_01_000012]; state [COMPLETE]; diagnostics [Container preempted by scheduler]; exit status [-102].. 2018-09-27 11:05:27.208 SEVERE: Service [OOP_Container_Manager_Service_2] has stopped running..
Blazeエンジンでは、Capacity SchedulerやFair SchedulerでのYARNプリエンプションはサポートしません。Blazeエンジンに割り当てられたキューでのプリエンプションを無効にするようHadoop管理者に依頼してください。詳細については、Mappings Fail with Preemption Errorsを参照してください。
パーティション化されたHiveテーブルを作成するようマッピングを設定した場合、マッピングが失敗し、宛先テーブルがパーティション化されているためパーティションカラムを指定する必要があることを示すエラーが表示される。: この問題は、Hiveパーティション化テーブルを作成するために設計されたクエリに対する、Informaticaの内部要件が原因で発生します。詳細と回避策については、Knowledge Base article 516266を参照してください。
SparkがHiveソースとターゲットを使用してマッピングを実行し、Hive Warehouse Connectorを使用すると、マッピングは次のエラーで失敗します。: [[SPARK_1003] Spark task [<task name>] failed with the following error: [User class threw exception: java.lang.reflect.InvocationTargetException ... java.sql.SQLException: Cannot create PoolableConnectionFactory (Could not open client transport for any of the Server URI's in ZooKeeper: Could not establish connection...)
この問題は、データ統合サービスがHive DTを取得できないことが原因で発生します。; 回避策: HiveServer2 InteractiveのURLをHadoop接続の詳細プロパティに追加します。
Ambari Webコンソールで、
［サービス］
［Hive］
［設定］
［詳細］
［詳細Hiveサイト］
を参照して、プロパティhive.server2.authentication.kerberos.principalの値をコピーします。
Hadoop接続の詳細プロパティを編集してプロパティspark.sql.hive.hiveserver2.jdbc.url.principalを追加します。
手順1でコピーした値をspark.sql.hive.hiveserver2.jdbc.url.principalの値として貼り付けます。
マッピングがSparkエンジンで実行されると、ナノ秒精度のタイムスタンプデータは切り捨てられます。: Sparkはタイムスタンプデータを1マイクロ秒（1us）の精度で保存し、ナノ秒精度はサポートしません。Sparkエンジンで実行されているマッピングがナノ秒精度のdatetimeデータを読み取ると、データはマイクロ秒に切り捨てられます。例えば、
2015-01-02 00:00:00.000456789
は
2015-01-02 00:00:00.000456
に切り捨てられます。; Blazeエンジンでは、ナノ秒精度がサポートされます。

Databricks環境

マッピングが次のエラーで失敗する: SEVERE: ID [1857]での実行が状態[INTERNAL_ERROR]、エラーメッセージ[ライブラリインストールが1800秒後にタイムアウトしました。ライブラリはまだインストールされていません: jar: "dbfs:/tmp/DATABRICKS/sess6250142538173973565/staticCode.jar"]: この状況は、並列ジョブの実行時に発生することがあります。Databricksは、ジョブを処理するためのリソースがない場合、ジョブを最大1,800秒（30分）キューイングします。30分以内にリソースが使用できない場合は、ジョブは失敗します。タイムアウトを回避するには次のアクションを検討してください。
Databricksクラスタのプリエンプション環境変数を設定して、各ジョブに割り当てられるリソースの量をコントロールします。プリエンプションの詳細については、
Data Engineering Integrationガイド
を参照してください。
エフェメラルクラスタを作成するクラスタワークフローを実行します。ワークフローは、クラスタを作成しジョブを実行してから、そのクラスタを削除するように設定できます。エフェメラルクラスタの詳細については、クラスタワークフローを参照してください。
Dataprocクラスタでマッピングを実行してSerDeでバッキングされたHiveテーブルでデータを読み書きすると、java.lang.ClassNotFoundException: org.apache.hive.hcatalog.data.JsonSerDeエラーでマッピングが失敗する。: Dataprocクラスタのすべてのノードの
hive-site.xml
に次のプロパティを追加し、Hiveサーバーを再起動します。
<property> <name>hive.aux.jars.path</name> <value>file:///usr/lib/hive/lib/hive-hcatalog-core-<version>.jar</value> </property>
VPN以外のDataprocクラスタでマッピングを実行すると、マッピングが失敗する。: Dataprocクラスタのすべてのノードの
hdfs-site.xml
で次のプロパティを設定します。
<property> <name>dfs.namenode.rpc-bind-host</name> <value>0.0.0.0</value> </property> <property> <name>dfs.namenode.servicerpc-bind-host</name> <value>0.0.0.0</value> </property> <property> <name>dfs.namenode.http-bind-host</name> <value>0.0.0.0</value> </property> <property> <name>dfs.namenode.https-bind-host</name> <value>0.0.0.0</value> </property> <property> <name>dfs.client.use.datanode.hostname</name> <value>true</value> </property>
マッピングでジョブレベルの最適化を設定すると、セッションログに設定が反映されるものの、Databricks Sparkエンジンでこの設定が無視される。: Databricks Sparkエンジンは、クラスタの構成設定に基づいてジョブの自動最適化を実行します。Spark.default.parallelismプロパティなどのカスタム設定は無視されます。Databricks Sparkエンジンで実行されるマッピングでジョブレベルの最適化を設定することはできません。

InformaticaはDatabricksを統合し、標準並列クラスタをサポートします。標準並列クラスタの最大キュー時間は30分で、タイムアウトに達するとジョブが失敗します。最大キュー時間は延長できません。プリエンプションのしきい値を設定すると、より多くのジョブを並列実行できますが、割り当てられるリソースの割合が小さくなり、ジョブの実行に時間がかかる可能性があります。また、プリエンプションの環境を設定しても、すべてのジョブの実行が保証されるわけではありません。プリエンプションの設定に加えて、クラスタワークフローを実行して、クラスタを作成しジョブを実行してから、そのクラスタを削除するエフェメラルクラスタを作成することができます。Databricksの並列の詳細については、Azure Databricksに問い合わせてください。

マッピング

ガイドをダウンロード

ページをウォッチ

フィードバックを送信

コミュニティ

Knowledge Base

Success Portal

Rename Saved Search

目次

ユーザーガイド

ユーザーガイド

非ネイティブ環境でのマッピングのトラブルシューティング

非ネイティブ環境でのマッピングのトラブルシューティング

Hadoop環境

Databricks環境