目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. クラスタワークフロー
  10. プロファイル
  11. 監視
  12. 階層データ処理
  13. 階層データ処理設定
  14. スキーマが変更された階層データの処理
  15. ブロックチェーン
  16. インテリジェント構造モデル
  17. ステートフルコンピューティング
  18. 接続
  19. データ型リファレンス
  20. 関数リファレンス

ユーザーガイド

ユーザーガイド

Sqoopパススルーマッピング向けのSparkエンジン最適化

Sqoopパススルーマッピング向けのSparkエンジン最適化

Sqoopソースを含むパススルーマッピングをSparkエンジンで実行すると、データ統合サービスでは次のシナリオでマッピングパフォーマンスを最適化します。
  • テキスト形式を使用するHiveターゲットにデータを書き込みます。
  • カスタムDDLクエリによって作成されたHiveターゲットにデータを書き込みます。
  • カスタムDDLクエリによってパーティション化されているか、カスタムDDLクエリによってパーティション化およびバケット化されているHiveターゲットにデータを書き込みます。
  • パーティション化もバケット化もされている既存のHiveターゲットにデータを書き込みます。
  • Flat、Avro、またはParquet形式を使用するHDFSターゲットにデータを書き込みます。
パフォーマンスの最適化を無効にする場合、JDBC接続またはSqoopマッピングで--infaoptimize引数をfalseに設定します。例えば、最適化したSqoopマッピングの実行後に、データ型の問題が発生したことがわかった場合、パフォーマンスの最適化を無効にできます。
以下の構文を使用します。
--infaoptimize false

Sqoop Sparkエンジンの最適化のためのルールとガイドライン

SparkエンジンでSqoopマッピングを実行する際は、次のルールとガイドラインを考慮します。
  • データ統合サービスは、次のシナリオではマッピングのパフォーマンスを最適化しません。
    • マッピング内のソースとターゲットとの間に未接続のポートがある。
    • マッピング内のソースとターゲットのデータ型が一致しない。
    • パーティション化またはバケット化されている既存のHiveターゲットテーブルにデータを書き込みます。
    • Parquet形式のHDFS複合ファイルターゲットにデータを書き込むために、WASBを使用するAzure HDInsightクラスタ上でマッピングを実行する。
    • Sqoopソースのdateまたはtimeデータ型は、Hiveターゲットのtimestampデータ型にマップされます。
    • Sqoopソースにはdecimal型のカラムが含まれており、ターゲットは複合ファイルです。
  • Hiveターゲットにデータを書き込むようにHive固有のSqoop引数を設定した場合、Sqoopはその引数を無視します。
  • デフォルトの区切り文字と異なる区切り文字をHiveターゲットテーブルに設定した場合、Sqoopはその区切り文字を無視します。