目次

Search

  1. はじめに
  2. Informatica Big Data Managementの概要
  3. マッピング
  4. ソース
  5. ターゲット
  6. トランスフォーメーション
  7. クラスタワークフロー
  8. プロファイル
  9. 監視
  10. 階層データ処理
  11. 階層データ処理設定
  12. スキーマが変更された階層データの処理
  13. インテリジェント構造モデル
  14. ステートフルコンピューティング
  15. 接続
  16. データ型リファレンス
  17. 関数リファレンス

ユーザーガイド

ユーザーガイド

Sparkエンジン上のランタイム処理

Sparkエンジン上のランタイム処理

データ統合サービスは、HadoopクラスタでSparkエンジンを使用して、モデルリポジトリマッピングを実行できます。
Sparkエンジンでマッピングを実行するために、データ統合サービスはマッピングアプリケーションをSpark実行プログラムに送信します。Spark実行プログラムは、ジョブを実行するためにHadoopクラスタに送信します。
次の図は、HadoopクラスタがSpark実行プログラムから送信されたジョブをどのように処理するかを示しています。
データ統合サービスがSparkエンジンでマッピングを実行すると、次のイベントが発生します。
  1. 論理Data TransformationマネージャがマッピングをScalaプログラムに変換し、アプリケーションとしてパッケージ化して、Spark実行プログラムに送信します。
  2. Spark実行プログラムがこのアプリケーションをHadoopクラスタ内のリソースマネージャに送信し、アプリケーションを実行するためのリソースを要求します。
    HDInsightクラスタでマッピングを実行すると、Spark実行プログラムがspark-submitスクリプトを起動します。このスクリプトが、アプリケーションを実行するためのリソースを要求します。
  3. リソースマネージャが、リソースを提供できるノードマネージャを識別し、ジョブをデータノードに割り当てます。
  4. Sparkアプリケーションが実行されるデータノードで、ドライバプロセスと実行プログラムプロセスが起動されます。