目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. データプレビュー
  10. クラスタワークフロー
  11. プロファイル
  12. 監視
  13. 階層データ処理
  14. 階層データ処理設定
  15. スキーマが変更された階層データの処理
  16. インテリジェント構造モデル
  17. ブロックチェーン
  18. ステートフルコンピューティング
  19. 付録 A: 接続リファレンス
  20. 付録 B: データ型リファレンス
  21. 付録 C: 関数リファレンス

マッピングの最適化

マッピングの最適化

マッピングとHadoop環境を最適化して、パフォーマンスを向上させます。
マッピングとHadoop環境の最適化は、次の方法で行えます。
マッピングの推奨事項と分析
Informatica CLAIREエンジンで生成される推奨事項と分析を使用し、マッピングとプロジェクトを最適化して、開発コストの削減とアプリケーションのパフォーマンス向上を実現します。CLAIREでは、機械学習と内部アルゴリズムを使用して、個々のマッピングの分析やグループでの分析を行います。Developer toolには、この分析の結果が推奨事項およびインサイトとして表示されます。
可用性の高いHadoopクラスタの設定
可用性の高いHadoopクラスタで読み取りと書き込みを行うように、データ統合サービスとDeveloper toolを設定できます。可用性の高いHadoopクラスタを設定する手順は、Hadoopディストリビューションの種類によって異なります。Hadoopディストリビューションに対応した設定手順の詳細については、
Data Engineering Integrationガイド
を参照してください。
一時的なステージングテーブルでデータの圧縮
一時的なステージングテーブルでのデータ圧縮を有効にして、マッピングのパフォーマンスを向上させることができます。
Blazeエンジンでのマッピングの実行
可用性の高いBlazeエンジンで、マッピングを実行します。Blazeエンジンでは、デフォルトで、グリッドタスクとタスクレットの再開とリカバリが有効です。
並列ソートの実行
マッピングでソータトランスフォーメーションを使用すると、データ統合サービスは、Hadoopクラスタにマッピングロジックをプッシュするときに、デフォルトで並列ソートを有効にします。並列ソートを行うと、マッピングパフォーマンスが向上します。
ジョイナトランスフォーメーションのパーティション化
Blazeエンジンのマッピングでジョイナトランスフォーメーションを使用する場合、データ統合サービスは、マップ側の結合の最適化を適用して、マッピングパフォーマンスを改善できます。データ統合サービスは、マスタテーブルが詳細テーブルよりも小さい場合に、マップ側の結合の最適化を適用します。データ統合サービスは、マップ側の結合の最適化を適用するときに、データのシャッフルを行わずにデータをジョイナトランスフォーメーションに移動します。
Hiveターゲットでのパーティションの切り詰め
Hiveターゲットのパーティションを切り詰めて、パフォーマンスを向上させることができます。Hiveターゲットのパーティションを切り詰めるには、Hiveターゲットのパーティションの切り詰めとターゲットテーブルの切り詰めの両方を選択する必要があります。
Hadoopクラスタのリソースの割り当て
スケジューラを使用して、Hadoopクラスタにリソースを割り当てることができます。組織のニーズに応じて、キャパシティスケジューラまたはフェアスケジューラを使用できます。
Hadoopクラスタ上でリソースを共有するためのYARNキューの設定
Hadoopクラスタ上のジョブを特定のキューにリダイレクトするように、YARNキューを設定できます。ジョブの割り当て先となったキューが、ジョブの実行に割り当てられるリソースを定義します。
Hadoopクラスタのノードへのラベル付け
Hadoopクラスタのノードにラベルを付けて、特定の特徴を持つパーティションのクラスタを分割できます。
SparkエンジンのSqoopマッピングの最適化
データ統合サービスは、Sparkエンジンで実行されるSqoopパススルーマッピングのパフォーマンスを最適化できます。
Data Engineering Recoveryの有効化
Data Engineering Recoveryを有効にして、データ統合サービスがSparkエンジンにプッシュして処理するマッピングジョブをリカバリできます。