目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. データプレビュー
  10. クラスタワークフロー
  11. プロファイル
  12. 監視
  13. 階層データ処理
  14. 階層データ処理設定
  15. スキーマが変更された階層データの処理
  16. インテリジェント構造モデル
  17. ブロックチェーン
  18. ステートフルコンピューティング
  19. 付録 A: 接続リファレンス
  20. 付録 B: データ型リファレンス
  21. 付録 C: 関数リファレンス

ユーザーガイド

ユーザーガイド

Sqoopデータソースのカラムプロファイル

Sqoopデータソースのカラムプロファイル

Sqoopを使用するデータオブジェクトでカラムプロファイルを実行できます。Hadoopを検証環境として選択したら、Hadoop接続でBlazeエンジンまたはSparkエンジンを選択して、カラムプロファイルを実行します。
論理データオブジェクトまたはカスタマイズデータオブジェクトのカラムプロファイルを実行すると、num-mappers引数を設定して並行処理を実現しパフォーマンスを最適化することができます。また、Sqoopで作業単位を分割する際の基準のカラムを指定するように、split-by引数も設定しなければなりません。
以下の構文を使用します。
--split-by <column_name>
プライマリキーの範囲の上限と下限の間で値の均等分布がない場合、データの均等分布がある別のカラムを指定して作業単位を分割するように、split-by引数を設定できます。
split-byカラムを定義しない場合、Sqoopでは次の条件に基づいて作業単位が分割されます。
  • データオブジェクトに単一プライマリキーが含まれる場合、Sqoopはプライマリキーをsplit-byカラムとして使用します。
  • データオブジェクトにコンポジットプライマリキーが含まれる場合、Sqoopのデフォルトは、split-by引数を使用せずにコンポジットプライマリキーを処理するSqoopの動作になります。詳細については、Sqoopのマニュアルを参照してください。
  • データオブジェクトに同一のカラムを持つ2つのテーブルが含まれる場合、split-byカラムをテーブル修飾名で定義する必要があります。例えば、テーブル名がCUSTOMERであり、カラム名がFULL_NAMEの場合、split-byカラムを次のように定義します。
    --split-by CUSTOMER.FULL_NAME
  • データオブジェクトにプライマリキーがない場合、m引数の値とnum-mappers引数は、デフォルトで1になります。
Cloudera Connector Powered by TeradataまたはHortonworks Connector for Teradataを使用し、Teradataテーブルにプライマリキーがない場合、split-by引数は必須です。