目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. データプレビュー
  10. クラスタワークフロー
  11. プロファイル
  12. 監視
  13. 階層データ処理
  14. 階層データ処理設定
  15. スキーマが変更された階層データの処理
  16. インテリジェント構造モデル
  17. ブロックチェーン
  18. ステートフルコンピューティング
  19. 付録 A: 接続リファレンス
  20. 付録 B: データ型リファレンス
  21. 付録 C: 関数リファレンス

ユーザーガイド

ユーザーガイド

Hive Warehouse ConnectorおよびHive LLAP

Hive Warehouse ConnectorおよびHive LLAP

Hive Warehouse ConnectorとHive LLAPを有効にして、Hiveテーブルの読み取りと書き込みの実行時にHiveクエリの実行を高速化します。Sparkエンジン上のHortonworks HDP 3.xおよびMicrosoft Azure HDInsight 4.xクラスタでHive Warehouse ConnectorおよびHive LLAPを使用できます。
Hive Warehouse Connectorは、追加のストレージオーバーヘッドを必要とする一時的なステージングテーブルを使用せずに、Hiveテーブルの読み取りと書き込みを行います。SparkコードがHiveターゲットと対話し、ACID対応のHiveテーブルを使用できるようにするには、SparkエンジンでHive Warehouse Connectorを使用します。Hive Warehouse Connectorを有効にすると、マッピングではHiveServer2ではなくHive LLAPを使用してHiveクエリが実行されます。
Hive Warehouse ConnectorおよびHive LLAPを使用する場合は、以下の制限を考慮してください。
  • Hive Warehouse ConnectorとHive LLAPは、バケット化されていないACID対応テーブルへの挿入クエリを実行するために使用します。
  • ソースから階層データを読み取る場合は、Hive Warehouse ConnectorおよびHive LLAPを使用できません。
  • Hortonworks HDPクラスタでHive Warehouse Connectorを使用する場合は、ORC形式のターゲットを使用する必要があります。ターゲットでORC形式を使用していない場合、データが破損する可能性があります。
    詳細については、サポートされているターゲットテーブルに関する次のHortonworksのドキュメントを参照してください: Apache Hive 3 tables
  • 圧縮プロパティが設定されている外部テーブルを使用する場合、マッピングはHiveServer2ではなくSpark SQLを使用して実行されます。圧縮プロパティの値がLZO、NONE、SNAPPY、ZLIBのいずれでもない場合、マッピングは失敗します。
    プロパティ値の大文字と小文字は区別され、大文字を使用する必要があります。
    詳細については、圧縮の種類に関する次のApache Hiveのドキュメントを参照してください: CompressionKind (Hive 2.1.1 API)
  • ターゲットスキーマストラテジとしてRETAINを選択して使用する場合は、Hadoopクラスタ
    でプロパティhive.llap.daemon.num.enabled.executors
    を設定します。このプロパティの値を
    hive.llap.daemon.num.executors
    と同じ値に設定します。
  • ACID対応のソースとターゲットを使用してマッピングをインポートする場合、[サマリ統計情報]ビューにはマッピングジョブのスループット統計は反映されません。