目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. クラスタワークフロー
  10. プロファイル
  11. 監視
  12. 階層データ処理
  13. 階層データ処理設定
  14. スキーマが変更された階層データの処理
  15. ブロックチェーン
  16. インテリジェント構造モデル
  17. ステートフルコンピューティング
  18. 接続
  19. データ型リファレンス
  20. 関数リファレンス

ユーザーガイド

ユーザーガイド

HDFSデータ抽出マッピングの例

HDFSデータ抽出マッピングの例

あなたの組織は、顧客ID、品目コード、品目の数量などの注文書の詳細を分析する必要があります。注文書の詳細は、半構造化圧縮XMLファイルとしてHDFSに保存されています。この階層データには、注文書の親階層レベルと、顧客の連絡先詳細の子階層レベルが含まれます。HDFS内のファイルからすべての注文レコードを読み取るマッピングを作成します。このマッピングは、階層データをリレーショナルデータに変換し、そのデータをリレーショナルターゲットに書き込む必要があります。
ビジネス分析のために抽出データを使用できます。
次の図に、マッピングの例を示します。
HDFSマッピングの例は、複合ファイル入力、データプロセッサトランスフォーメーション、リレーショナル出力を示しています。
次のオブジェクトをHDFSマッピング内で使用できます。
HDFS入力
入力オブジェクトRead_Complex_Fileは、HDFS内に保存された圧縮XMLファイルを表す読み取りトランスフォーメーションです。
データプロセッサトランスフォーメーション
データプロセッサトランスフォーメーションData_Processor_XML_to_Relationalは、このXMLファイルを解析し、リレーショナル出力を提供します。
リレーショナル出力
出力オブジェクトWrite_Relational_Data_Objectは、Oracleデータベース内のテーブルを表す書き込みトランスフォーメーションです。
マッピングを実行すると、データ統合サービスはバイナリストリーム内のファイルを読み取り、それをデータプロセッサトランスフォーメーションに渡します。データプロセッサトランスフォーメーションは、指定されたファイルを解析し、リレーショナル出力を提供します。この出力は、リレーショナルターゲットに書き込まれます。
ネイティブのランタイム環境またはHadoopランタイム環境で実行するためのマッピングを設定できます。
以下の作業を実行して、マッピングの設定を行います。
  1. Hadoopクラスタからのファイルを読み取るためのHDFS接続を作成します。
  2. 複合ファイルデータオブジェクト読み取り操作を作成します。次のパラメータを指定します。
    • データオブジェクト内のリソースとしてのファイル。
    • ファイル圧縮形式。
    • HDFSファイルの場所。
  3. 必要に応じて、マッパーがファイルの読み取りに使用する入力形式を指定できます。
  4. 複合ファイルデータオブジェクト読み取り操作をマッピングにドラッグアンドドロップします。
  5. データプロセッサトランスフォーメーションを作成します。データプロセッサトランスフォーメーションで次のプロパティを設定します。
    • バッファ入力とバイナリデータ型に設定した入力ポート。
    • リレーショナル出力内に含めるカラム数に応じたリレーショナル出力ポート。ポートのサイズを指定します。XML階層を表すXMLスキーマ参照を使用します。目的の正規化された出力を指定します。例えば、PurchaseOrderNumber_Keyを、注文書出力グループを顧客の詳細グループ関連付ける生成キーとして指定できます。
    • ストリーマオブジェクトを作成し、ストリーマをスタートアップコンポーネントとして指定します。
  6. Oracleデータベースへのリレーショナル接続を作成します。
  7. リレーショナルデータオブジェクトをインポートします。
  8. リレーショナルデータオブジェクトの書き込みトランスフォーメーションを作成し、そのトランスフォーメーションをマッピングに追加します。