目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. データプレビュー
  10. クラスタワークフロー
  11. プロファイル
  12. 監視
  13. 階層データ処理
  14. 階層データ処理設定
  15. スキーマが変更された階層データの処理
  16. インテリジェント構造モデル
  17. ブロックチェーン
  18. ステートフルコンピューティング
  19. 付録 A: 接続リファレンス
  20. 付録 B: データ型リファレンス
  21. 付録 C: 関数リファレンス

ユーザーガイド

ユーザーガイド

Databricks Sparkエンジンでのマッピングのルールとガイドライン

Databricks Sparkエンジンでのマッピングのルールとガイドライン

Databricks Sparkのような非ネイティブ環境は、さまざまなノード上で分散処理を使用しデータを処理します。各ノードが、他のノードで処理されているデータにアクセスすることはありません。その結果、ランタイムエンジンではデータが生成された順序を判断できない場合があります。よって、マッピングを非ネイティブ環境で実行し、同じマッピングをネイティブ環境で実行すると、両方のマッピングで正しい結果を返しても、結果が同一でない場合があります。詳細については、『』を参照してください。
Databricks Sparkエンジンでは、次の実行時の違いを考慮します。
  • SparkエンジンまたはDatabricks Sparkエンジン上のソースへのフィルタのプッシュに対応するデータソースがマッピングに含まれている場合、自動最適化レベルを使用すると、前に選択した最適化方式が有効になります。最適化レベルの詳細については、『
    Informatica Developerマッピングガイド
    』を参照してください。
  • Databricks Sparkは、クラスタの構成設定に基づいてジョブの自動最適化を実行します。Spark.default.parallelismプロパティを使用して最適化を設定した場合、Databricks Sparkエンジンはこの設定を無視します。そのため、最適化をジョブレベルで設定することはできません。