目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. データプレビュー
  10. クラスタワークフロー
  11. プロファイル
  12. 監視
  13. 階層データ処理
  14. 階層データ処理設定
  15. スキーマが変更された階層データの処理
  16. インテリジェント構造モデル
  17. ブロックチェーン
  18. ステートフルコンピューティング
  19. 付録 A: 接続リファレンス
  20. 付録 B: データ型リファレンス
  21. 付録 C: 関数リファレンス

ユースケース

ユースケース

あなたは、保険会社の運用グループで働いています。あなたが所属するチームでは、運用上の問題やセキュリティの問題を特定する目的で、Webログを処理しようとしています。
バックエンドシステムは、会社内のさまざまな支店で行われたシステムアクセスやセキュリティのアクティビティに関するデータを収集します。収集されたデータは、企業のデータセンターに保存されて、Amazon S3ストレージでホストされます。
チームは、過去数週間に発生したほとんどのエラーとシステムダウンタイムの原因となった運用上の問題のタイプを理解しようと努めています。その後は監査のためにデータを保存する計画です。
データアナリストがデータで作業を開始できるようにするには、Amazon S3の入力バケットのデータを解析して、アクション可能なデータを生成する必要があります。しかし、分析モデルの作成を目的としてデータを取捨選択するために必要な時間とリソースを費やすことはできません。Webログからアクション可能なデータが作成されたことを確認するために、さまざまなマッピングやパラメータセットの開発が必要になる場合があります。
個別のトランスフォーメーションを手動で作成する代わりに、チームは、自動生成された
インテリジェント構造モデル
を使用して、関連するデータセットを判別することができます。
インテリジェント構造モデル
インテリジェント構造検出
で作成します。これは、機械学習アルゴリズムを使用して構造化データファイルや非構造化データファイルのデータを解読してデータの基となる構造を発見する
データ統合
のアプリケーションです。
Intelligent Structure Discoveryは、入力ファイルデータ構造を表す
インテリジェント構造モデル
を作成します。インテリジェント構造モデルを使用してアクション可能なデータセットを出力するデータオブジェクトを使用して、マッピングを作成します。
マッピングは、Amazon S3入力バケットのデータを取得した後、
インテリジェント構造モデル
を使用してデータを処理して準備します。その後、そのデータをAmazon S3出力バケットに書き込むことができます。
次の図は、Amazon S3入力バケットからデータを取得し、データを解析および準備し、その後データをAmazon S3出力バケットに書き込むプロセスを示します。アナリストは、処理後のデータを使用してセキュリティの問題に対処し、運用管理を改善できます。
この図は、ログデータを読み取るS3データオブジェクトが、Data Engineering Integrationのマッピングに渡される様子を示しています。マッピングはSparkエンジンでデータを処理し、そのデータをAmazon S3出力バケットに書き込みます。