はじめに
Informatica Data Engineering Integrationについて
- Informatica Data Engineering Integrationの概要
  - 例
- Data Engineering Integrationのコンポーネントアーキテクチャ
- Data Engineering Integrationのエンジン
- Data Engineeringプロセス
- データウェアハウス最適化のマッピングの例
マッピング
- マッピングの概要
- マッピングランタイムプロパティ
- JDBCソースへのPreSQLクエリとPostSQLクエリ
- Hadoop環境でのSqoopマッピング
- マッピング出力のバインディング
- 非ネイティブ環境のマッピングのルールとガイドライン
- 非ネイティブ環境でマッピングを実行するワークフロー
- 非ネイティブ環境で実行するマッピングの設定
  - Dataprocで実行するマッピングの設定
- 監査
- マッピング実行プラン
- 非ネイティブ環境でのマッピングのトラブルシューティング
- ネイティブ環境でのマッピング
マッピングの最適化
- マッピングの最適化
- マッピングの推奨事項と分析
- 一時ステージングテーブルでのデータ圧縮の有効化
  - 手順1.Hadoop接続でのデータ圧縮の有効化
  - 手順2.Hadoop環境でのデータ圧縮の有効化
- Hiveターゲットでのパーティションの切り詰め
- Hive Warehouse ConnectorおよびHive LLAP
  - Hive WarehouseコネクタとHive LLAPの有効化
- スケジュール、キュー、およびノードのラベル適用
- Data Engineering Recovery
- Sqoopパススルーマッピング向けのSparkエンジン最適化
ソース
- ソースの概要
- PowerExchangeアダプタソース
- Databricksのソース
- Hadoopのファイルソース
- Hadoopのリレーショナルソース
- HiveソースHadoop上
  - PreSQLコマンドおよびPostSQLコマンド
  - Blazeエンジン上のHiveソースのルールとガイドライン
- HadoopのSqoopソース
ターゲット
- ターゲットの概要
- PowerExchangeアダプタターゲット
- Databricksのターゲット
- Hadoopでのファイルターゲット
- Hadoopでのメッセージターゲット
- Hadoopのリレーショナルターゲット
- HadoopのHiveターゲット
- HadoopのSqoopターゲット
  - Sqoopターゲットのルールとガイドライン
トランスフォーメーション
- トランスフォーメーションの概要
- 非ネイティブ環境でのアドレスバリデータトランスフォーメーション
  - Blazeエンジンでのアドレスバリデータトランスフォーメーション
  - Sparkエンジンでのアドレスバリデータトランスフォーメーション
    - アドレスバリデータトランスフォーメーションストリーミングマッピングでの
  - アドレスバリデータトランスフォーメーション（Databricks Sparkエンジン）
- 非ネイティブ環境でのアグリゲータトランスフォーメーション
  - Blazeエンジンでのアグリゲータトランスフォーメーション
  - Sparkエンジンでのアグリゲータトランスフォーメーション
    - ストリーミングマッピングでのアグリゲータトランスフォーメーション
  - Databricks Sparkエンジンでのアグリゲータトランスフォーメーション
- 非ネイティブ環境での大文字小文字変換トランスフォーメーション
- 非ネイティブ環境での分類子トランスフォーメーション
- 非ネイティブ環境での比較トランスフォーメーション
- 非ネイティブ環境での統合トランスフォーメーション
  - Blazeエンジンでの統合トランスフォーメーション
  - Sparkエンジンでの統合トランスフォーメーション
  - Databricks Sparkエンジンでの統合トランスフォーメーション
- 非ネイティブ環境でのデータマスキングトランスフォーメーション
  - Blazeエンジンでのデータマスキングトランスフォーメーション
  - Sparkエンジンでのデータマスキングトランスフォーメーション
    - データマスキングトランスフォーメーションストリーミングマッピングでの
- 非ネイティブ環境でのデータプロセッサトランスフォーメーション
- 非ネイティブ環境でのディシジョントランスフォーメーション
  - Sparkエンジンでのディシジョントランスフォーメーション
  - Databricks Sparkエンジンでのディシジョントランスフォーメーション
- 非ネイティブ環境での式トランスフォーメーション
  - Blazeエンジンでの式トランスフォーメーション
  - Sparkエンジンでの式トランスフォーメーション
    - ストリーミングマッピングでの式トランスフォーメーション
  - Databricks Sparkエンジンでの式トランスフォーメーション
- 非ネイティブ環境でのフィルタトランスフォーメーション
  - Blazeエンジンでのフィルタトランスフォーメーション
- 階層型からリレーショナルへのトランスフォーメーション（非ネイティブ環境）
- 非ネイティブ環境でのJavaトランスフォーメーション
  - BlazeエンジンでのJavaトランスフォーメーション
  - SparkエンジンでのJavaトランスフォーメーション
    - ストリーミングマッピングでのJavaトランスフォーメーション
- 非ネイティブ環境でのジョイナトランスフォーメーション
  - Blazeエンジンでのジョイナトランスフォーメーション
  - Sparkエンジンでのジョイナトランスフォーメーション
    - ストリーミングマッピングでのジョイナトランスフォーメーション
  - Databricks Sparkエンジンでのジョイナトランスフォーメーション
- 非ネイティブ環境でのキージェネレータトランスフォーメーション
  - Blazeエンジンでのキージェネレータトランスフォーメーション
  - Sparkエンジンでのキージェネレータトランスフォーメーション
  - Databricks Sparkエンジンでのキージェネレータトランスフォーメーション
- 非ネイティブ環境でのラベラトランスフォーメーション
- 非ネイティブ環境でのルックアップトランスフォーメーション
  - Blazeエンジンでのルックアップトランスフォーメーション
  - Sparkエンジンでのルックアップトランスフォーメーション
    - ストリーミングマッピングでのルックアップトランスフォーメーション
  - Databricks Sparkエンジンでのルックアップトランスフォーメーション
- 非ネイティブ環境でのマクロトランスフォーメーション
- 非ネイティブ環境での一致トランスフォーメーション
  - Blazeエンジンでの一致トランスフォーメーション
  - Sparkエンジンでの一致トランスフォーメーション
  - Databricks Sparkエンジンでの一致トランスフォーメーション
- 非ネイティブ環境でのマージトランスフォーメーション
- 非ネイティブ環境でのノーマライザトランスフォーメーション
- 非ネイティブ環境でのパーサートランスフォーメーション
- 非ネイティブ環境でのランクトランスフォーメーション
  - Blazeエンジンでのランクトランスフォーメーション
  - Sparkエンジンでのランクトランスフォーメーション
    - ストリーミングマッピングでのランクトランスフォーメーション
  - Databricks Sparkエンジンでのランクトランスフォーメーション
- リレーショナルから階層型へのトランスフォーメーション（非ネイティブ環境）
- 非ネイティブ環境でのルータートランスフォーメーション
- 非ネイティブ環境でのルール仕様トランスフォーメーション
- シーケンスジェネレータトランスフォーメーション非ネイティブ環境で
  - Blazeエンジンでのシーケンスジェネレータトランスフォーメーション
  - Sparkエンジンでのシーケンスジェネレータトランスフォーメーション
  - シーケンスジェネレータトランスフォーメーションDatabricks Sparkエンジン
- 非ネイティブ環境でのソータートランスフォーメーション
  - Blazeエンジンでのソータートランスフォーメーション
  - Sparkエンジンでのソータートランスフォーメーション
    - ストリーミングマッピングでのソータトランスフォーメーション
  - Databricks Sparkエンジンでのソータートランスフォーメーション
- 非ネイティブ環境での標準化トランスフォーメーション
- 非ネイティブ環境での共有体トランスフォーメーション
  - ストリーミングマッピングでの共有体トランスフォーメーション
- 非ネイティブ環境でのアップデートストラテジトランスフォーメーション
  - Blazeエンジンでのアップデートストラテジトランスフォーメーション
  - Sparkエンジンでのアップデートストラテジトランスフォーメーション
  - Databricks Sparkエンジンでのアップデートストラテジトランスフォーメーション
- 非ネイティブ環境での加重平均トランスフォーメーション
Pythonトランスフォーメーション
- Pythonトランスフォーメーションの概要
- Pythonトランスフォーメーションのポート
- Pythonトランスフォーメーションの詳細プロパティ
- Pythonトランスフォーメーションのコンポーネント
  - リソースファイル
  - Pythonコード
- Pythonトランスフォーメーションのルールおよびガイドライン
  - ストリーミングマッピングでのPythonトランスフォーメーション
- Pythonトランスフォーメーションの作成
  - 再利用可能なPythonトランスフォーメーションの作成
  - 再利用不可能なPythonトランスフォーメーションの作成
- 例: IDカラムの非パーティション化データへの追加
- 例: 最も高い給与を検索するパーティションの使用
- ユースケース: トレーニング済みモデルを操作可能にする
データプレビュー
- データプレビューの概要
  - データプレビューをサポートする接続およびクラスタディストリビューション
- データプレビュープロセス
- データのプレビュー
- 階層データのデータプレビューインタフェース
- データプレビュートランスフォーメーションでの
- データプレビューログ
- Sparkエンジンでのデータプレビューに関するルールとガイドライン
クラスタワークフロー
- クラスタワークフローの概要
  - クラスタワークフロープラットフォームのサポート
- クラスタワークフローのコンポーネント
- ウォームプールを使用したDatabricksクラスタの設定
- クラスタワークフロープロセス
- クラスタの作成タスクのプロパティ
- マッピングタスクのプロパティ
- クラスタの削除タスクの追加
- ワークフローのデプロイと実行
  - Azure HDInsightクラスタワークフロージョブの監視
プロファイル
- プロファイルの概要
- ネイティブ環境
- Hadoop環境
  - Sqoopデータソースのカラムプロファイル
- サンプリングオプション
- Informatica Developerでの単一のデータオブジェクトプロファイルの作成
- Informatica Developerでのエンタープライズ検出プロファイルの作成
- Informatica Analystでのカラムプロファイルの作成
- Informatica Analystでのエンタープライズ検出プロファイルの作成
- Informatica Analystでのスコアカードの作成
- プロファイルの監視
- プロファイリング機能のサポート
- トラブルシューティング
監視
- 監視の概要
- Hadoop環境のログ
- Blazeエンジンの監視
- Sparkエンジン監視
階層データ処理
- 階層データ処理の概要
- マッピングの開発方法階層データの処理
- 復号データ型
- 複合ポート
- 複合データ型定義
- 型設定
- 複合演算子
  - 添字演算子を使用した配列要素の抽出
  - ドット演算子を使用した構造要素の抽出
- 複合関数
- Sparkエンジンでの階層データの処理に関するルールとガイドライン
- 階層データのミッドストリーム解析
階層データ処理設定
- 階層データの変換
- リレーショナルデータまたは階層データの構造データへの変換
  - 構造ポートの作成
- リレーショナルデータまたは階層データのネストされた構造データへの変換
  - ネストされた複合ポートの作成
- 階層データからの要素の抽出
  - 複合ポートからの要素の抽出
- 階層データのフラット化
  - 複合ポートのフラット化
スキーマが変更された階層データの処理
- スキーマが変更された階層データの処理の概要
- 階層データのスキーマの変更を処理する動的マッピングの開発方法
- スキーマが変更された階層データのフラット化
  - 動的構造体のフラット化
- 動的複合ポート
  - 動的ポートと動的複合ポート
  - トランスフォーメーション内の動的複合ポート
- 動的複合ポートの入力ルール
- 動的複合ポートのポートセレクタ
- 動的式
  - 例 - 動的構造を構築する動的式
- 複合演算子
- 複合関数
- 動的複合ポートのルールおよびガイドライン
- 最適化されたマッピング
インテリジェント構造モデル
- インテリジェント構造モデルの概要
- インテリジェント構造検出プロセス
- ユースケース
- マッピングでのインテリジェント構造モデルの使用
- インテリジェント構造モデルのルールとガイドライン
- インテリジェント構造モデルを使用してマッピングを作成する方法
  - マッピングの例
- Cloud Data Integrationでのインテリジェント構造モデルの作成
ブロックチェーン
- ブロックチェーンの概要
  - ブロックチェーンのプロセス
- ブロックチェーンデータオブジェクト
- ブロックチェーンデータオブジェクト操作
- ユースケース: ブロックチェーンソースを使用した車両ライフサイクルのサービス向上
  - マッピングの概要
ステートフルコンピューティング
- ステートフルコンピューティングの概要
- ウィンドウ化構成
- ウィンドウ関数
- ウィンドウ化例
付録 A: 接続リファレンス
- 接続の概要
- クラウドプロビジョニング設定
  - AWSクラウドプロビジョニング設定のプロパティ
  - Azureクラウドプロビジョニング設定のプロパティ
  - Databricksクラウドプロビジョニング設定のプロパティ
- Amazon Redshift接続のプロパティ
- Amazon S3接続のプロパティ
- ブロックチェーン接続プロパティ
- Cassandra接続のプロパティ
- Confluent Kafka接続
  - 全般プロパティ
  - Confluent Kafka Brokerのプロパティ
  - SSLプロパティ
  - infacmdを使用したConfluent Kafka接続の作成
- Databricks接続プロパティ
- Google Analytics接続のプロパティ
- Google BigQuery接続のプロパティ
- Google Cloud Spanner接続のプロパティ
- Google Cloud Storage接続のプロパティ
- Google PubSub接続のプロパティ
- Hadoop接続プロパティ
  - Hadoopクラスタプロパティ
  - 共通プロパティ
  - 拒否ディレクトリのプロパティ
  - Blaze設定
  - Spark設定
- HDFS接続プロパティ
- HBase接続プロパティ
- MapR-DBのHBase接続のプロパティ
- Hive接続のプロパティ
- JDBC接続のプロパティ
  - JDBC接続文字列
  - Sqoopの接続レベルの引数
  - Delta LakeのJDBC接続プロパティ
- JDBC V2接続のプロパティ
- Kafka接続のプロパティ
  - 全般プロパティ
  - Kafka Brokerのプロパティ
  - SSLプロパティ
  - infacmdを使用したKafka接続の作成
- Kudu接続プロパティ
- Microsoft Azure Blobストレージ接続のプロパティ
- Microsoft Azure Cosmos DB SQL API接続のプロパティ
- Microsoft Azure Data Lake Storage Gen1接続のプロパティ
- Microsoft Azure Data Lake Storage Gen2接続のプロパティ
- Microsoft Azure SQL Data Warehouse接続プロパティ
- Snowflake接続プロパティ
- ソースまたはターゲットにアクセスするための接続の作成
- Hadoop接続の作成
- Hadoop接続プロパティの設定
  - クラスタ環境変数
  - クラスタのライブラリパス
  - 共通する詳細プロパティ
  - Blazeエンジン詳細プロパティ
  - Sparkの詳細プロパティ
付録 B: データ型リファレンス
- データ型リファレンスの概要
- 非ネイティブ環境でのトランスフォーメーションデータ型のサポート
- 複合ファイルデータ型とトランスフォーメーションデータ型
- フラットファイルとトランスフォーメーションデータ型
- Hiveのデータ型とトランスフォーメーションデータ型
  - Hiveの複合データ型
- Sqoopのデータ型
付録 C: 関数リファレンス
- 非ネイティブ環境での関数サポート
- 関数とデータ型の処理

User Guide

10.5.1

前へ次へ

Sparkエンジン監視

Administratorツールの［モニタ］タブで、Sparkエンジンマッピングジョブの統計情報を監視し、ログイベントを表示できます。Sparkエンジンのマッピングジョブは、YARN Webユーザーインタフェースでも監視できます。

次の図に、Administratorツールの［モニタ］タブを示します。

［モニタ］タブがAdministratorツールで選択されています。［実行統計］ビューが選択され、左側で選択された［アドホックジョブ］ジョブがナビゲータに表示されています。ジョブのリストがコンテンツパネルに表示されます。

［モニタ］タブには、次のビューが含まれています。

サマリ統計

［サマリ統計］

ビューを使用すると、データ統合サービスでのオブジェクトの状態および分布のサマリをグラフで表示できます。データ統合サービスでオブジェクトを実行するために使用されたメモリおよびCPUのグラフを表示することもできます。

実行統計

［実行統計］

ビューを使用すると、プロパティ、ランタイム統計、およびランタイムレポートを監視できます。ナビゲータで［データ統合サービス］を展開して

［アドホックジョブ］

を監視する、またはアプリケーションを展開してデプロイ済みのマッピングジョブやワークフローを監視できます。

［アドホックジョブ］

、デプロイ済みのマッピングジョブ、ワークフローを

［実行統計］

ビューのナビゲータのアプリケーションから選択すると、コンテンツパネルにジョブのリストが表示されます。コンテンツパネルに、キューに追加された、実行中、完了、失敗、中断、キャンセルの状態にあるジョブが表示されます。データ統合サービスは、十分なリソースを使用できるときに、キューに追加された状態のジョブをクラスタに送信します。

コンテンツパネルでは、ジョブタイプに基づいて、関連ジョブがグループ化されています。ジョブタイプを展開して、その下の関連ジョブを表示できます。

［実行統計］

ビューで、次のビューにアクセスします。

プロパティ: ［プロパティ］
ビューに、選択したジョブについて、名前、ジョブタイプ、ジョブを開始したユーザー、ジョブの開始時刻など、全般的なプロパティが表示されます。
Spark実行プラン: マッピングのSpark実行プランを表示するときに、データ統合サービスは、マッピングをScalaプログラムと任意選択のコマンドセットに変換します。実行プランによって、これらのコマンドとScalaプログラムコードが表示されます。
サマリ統計: コンテンツパネルでマッピングジョブを選択すると、詳細パネルに
［サマリ統計］
ビューが表示されます。
［サマリ統計］
ビューに、次のジョブのスループット統計が表示されます。

プレジョブタスクSparkジョブ実行前にソースデータを読み取り、行データを一時テーブルにステージングする各ジョブタスクの名前。各秒に処理されたバイト数と平均バイト数を表示することもできます。
Sqoopマッピングに対してリカバリを有効にした場合、プレジョブタスクの統計は表示されません。

ソース。ソースの名前。
ターゲット。ターゲットの名前。
行。ソースでは、Sparkアプリケーションによって読み取られた行数。ターゲットでは、ターゲットおよび拒否行に書き込まれた行の総数。
ポストジョブタスク。ステージングされたテーブルからターゲットデータを書き込む各ジョブタスクの名前。各秒に処理されたバイト数と平均バイト数を表示することもできます。; マッピングに複数のアップストリームソースを含む共有体トランスフォーメーションが含まれる場合、ソースは、［ソース］の下の1行にカンマ区切りリストの形式で表示されます。

DD_UPDATE条件を含むアップデートストラテジトランスフォーメーションを含むHiveマッピングでは、Sparkジョブの実行後、ターゲットに一時テーブルのみが含まれています。マッピングジョブ統計の結果は、ポストジョブタスクに表示され、更新されたレコード数の2倍を示します。

次の図に、Sparkエンジンで実行されるマッピングの詳細パネル内の
［サマリ統計］
ビューを示します。; Sparkの実行ステージ情報を、［実行統計］の［モニタ］タブの［サマリ統計］ビューの詳細ペインで参照することもできます。ソースの後、ターゲットの前にリストとして表示されます。; Spark実行ステージ
に、Sparkアプリケーションのステージ統計と関連する行とバイトの絶対数とスループットが表示されます。行はステージが書き込む行数を表し、バイトはステージ内でブロードキャストされるバイト数を表します。
次の図に、Spark実行ステージを示します。

例えば、Spark実行ステージカラムには、
stage_<ID>
で始まるSparkアプリケーションのステージングされた情報が格納されます。例では、
Stage_0
に、
ID=0
の値を持つSparkアプリケーションのSpark実行ステージと関連する統計が表示されています。

Sparkエンジンが、詳細データが有効化された自己結合を含むソースデータを読み取る場合を考えます。このシナリオでは、Sparkアプリケーションから最適化されたマッピングには、Sparkエンジンログ内の同じソースの2番目のインスタンスの情報は何も含まれません。

一時テーブルからのデータ読み取るときに、カスタマイズしたデータオブジェクトのHiveクエリによって、データのシャッフルが発生する場合を考えます。このシナリオでは、フィルタされたソース統計が、Sparkエンジンログ内の一時ソーステーブルからの読み取りの代わりに表示されます。

Spark監視が有効な状態でマッピングを実行するときは、パフォーマンスは、マッピングの複雑さに基づいて異なります。監視が有効な状態では、通常の処理時間の最大3倍の時間がかかる可能性があります。デフォルトでは、監視は無効です。