目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. データプレビュー
  10. クラスタワークフロー
  11. プロファイル
  12. 監視
  13. 階層データ処理
  14. 階層データ処理設定
  15. スキーマが変更された階層データの処理
  16. インテリジェント構造モデル
  17. ブロックチェーン
  18. ステートフルコンピューティング
  19. 付録 A: 接続リファレンス
  20. 付録 B: データ型リファレンス
  21. 付録 C: 関数リファレンス

Databricks Sparkエンジン上のランタイム処理

Databricks Sparkエンジン上のランタイム処理

Databricks Sparkエンジンでジョブを実行する場合、データ統合サービスが処理をDatabricksクラスタにプッシュし、Databricks Sparkエンジンがジョブを実行します。
次の図は、Informatica環境とDatabricks環境のコンポーネントを示しています。
画像は、ネイティブ環境でのデータ統合サービス、LDTM、Databricksエンジン実行プログラムを示しています。Databricks環境では、Databricksクラスタ内の複数のノードを示しています。
  1. 論理Data TransformationマネージャがマッピングをScalaプログラムに変換し、アプリケーションとしてパッケージ化して、データ統合サービスマシン上のDatabricksエンジン実行プログラムに送信します。
  2. Databricksエンジン実行プログラムは、REST APIを介して、アプリケーションをDatabricksクラスタに送信し、アプリケーションの実行を要求して、ランタイム中のアクセスのためにファイルをステージングします。
  3. Databricksクラスタは、ドライバノード上のDatabricks Sparkドライバに要求を渡します。
  4. Databricks Sparkドライバは、ワーカーノードにある1つ以上のDatabricks Spark実行プログラムにジョブを分散します。
  5. 実行プログラムはジョブを実行し、ワークスペースのDatabricks File System(DBFS)にランタイムデータをステージングします。