目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. データプレビュー
  10. クラスタワークフロー
  11. プロファイル
  12. 監視
  13. 階層データ処理
  14. 階層データ処理設定
  15. スキーマが変更された階層データの処理
  16. インテリジェント構造モデル
  17. ブロックチェーン
  18. ステートフルコンピューティング
  19. 付録 A: 接続リファレンス
  20. 付録 B: データ型リファレンス
  21. 付録 C: 関数リファレンス

Sparkエンジン監視

Sparkエンジン監視

Administratorツールの[モニタ]タブで、Sparkエンジンマッピングジョブの統計情報を監視し、ログイベントを表示できます。Sparkエンジンのマッピングジョブは、YARN Webユーザーインタフェースでも監視できます。
次の図に、Administratorツールの[モニタ]タブを示します。
[モニタ]タブがAdministratorツールで選択されています。[実行統計]ビューが選択され、左側で選択された[アドホックジョブ]ジョブがナビゲータに表示されています。ジョブのリストがコンテンツパネルに表示されます。
[モニタ]タブには、次のビューが含まれています。

サマリ統計

[サマリ統計]
ビューを使用すると、データ統合サービスでのオブジェクトの状態および分布のサマリをグラフで表示できます。データ統合サービスでオブジェクトを実行するために使用されたメモリおよびCPUのグラフを表示することもできます。

実行統計

[実行統計]
ビューを使用すると、プロパティ、ランタイム統計、およびランタイムレポートを監視できます。ナビゲータで[データ統合サービス]を展開して
[アドホックジョブ]
を監視する、またはアプリケーションを展開してデプロイ済みのマッピングジョブやワークフローを監視できます。
[アドホックジョブ]
、デプロイ済みのマッピングジョブ、ワークフローを
[実行統計]
ビューのナビゲータのアプリケーションから選択すると、コンテンツパネルにジョブのリストが表示されます。コンテンツパネルに、キューに追加された、実行中、完了、失敗、中断、キャンセルの状態にあるジョブが表示されます。データ統合サービスは、十分なリソースを使用できるときに、キューに追加された状態のジョブをクラスタに送信します。
コンテンツパネルでは、ジョブタイプに基づいて、関連ジョブがグループ化されています。ジョブタイプを展開して、その下の関連ジョブを表示できます。
[実行統計]
ビューで、次のビューにアクセスします。
プロパティ
[プロパティ]
ビューに、選択したジョブについて、名前、ジョブタイプ、ジョブを開始したユーザー、ジョブの開始時刻など、全般的なプロパティが表示されます。
Spark実行プラン
マッピングのSpark実行プランを表示するときに、データ統合サービスは、マッピングをScalaプログラムと任意選択のコマンドセットに変換します。実行プランによって、これらのコマンドとScalaプログラムコードが表示されます。
サマリ統計
コンテンツパネルでマッピングジョブを選択すると、詳細パネルに
[サマリ統計]
ビューが表示されます。
[サマリ統計]
ビューに、次のジョブのスループット統計が表示されます。
  • プレジョブタスクSparkジョブ実行前にソースデータを読み取り、行データを一時テーブルにステージングする各ジョブタスクの名前。各秒に処理されたバイト数と平均バイト数を表示することもできます。
    Sqoopマッピングに対してリカバリを有効にした場合、プレジョブタスクの統計は表示されません。
  • ソース。ソースの名前。
  • ターゲット。ターゲットの名前。
  • 行。ソースでは、Sparkアプリケーションによって読み取られた行数。ターゲットでは、ターゲットおよび拒否行に書き込まれた行の総数。
  • ポストジョブタスク。ステージングされたテーブルからターゲットデータを書き込む各ジョブタスクの名前。各秒に処理されたバイト数と平均バイト数を表示することもできます。
マッピングに複数のアップストリームソースを含む共有体トランスフォーメーションが含まれる場合、ソースは、[ソース]の下の1行にカンマ区切りリストの形式で表示されます。
DD_UPDATE条件を含むアップデートストラテジトランスフォーメーションを含むHiveマッピングでは、Sparkジョブの実行後、ターゲットに一時テーブルのみが含まれています。マッピングジョブ統計の結果は、ポストジョブタスクに表示され、更新されたレコード数の2倍を示します。
次の図に、Sparkエンジンで実行されるマッピングの詳細パネル内の
[サマリ統計]
ビューを示します。
[モニタ]タブがAdministratorツールで選択されています。下の詳細パネルで、[サマリ統計]が選択されています。このパネルには、プレジョブ、ソース、ターゲット、およびポストジョブの行数が表示されています。
Sparkの実行ステージ情報を、[実行統計]の[モニタ]タブの[サマリ統計]ビューの詳細ペインで参照することもできます。ソースの後、ターゲットの前にリストとして表示されます。
Spark実行ステージ
に、Sparkアプリケーションのステージ統計と関連する行とバイトの絶対数とスループットが表示されます。行はステージが書き込む行数を表し、バイトはステージ内でブロードキャストされるバイト数を表します。
次の図に、Spark実行ステージを示します。
Spark実行ステージは、詳細ペインのソースとターゲットの間に表示されます。
例えば、Spark実行ステージカラムには、
stage_<ID>
で始まるSparkアプリケーションのステージングされた情報が格納されます。例では、
Stage_0
に、
ID=0
の値を持つSparkアプリケーションのSpark実行ステージと関連する統計が表示されています。
Sparkエンジンが、詳細データが有効化された自己結合を含むソースデータを読み取る場合を考えます。このシナリオでは、Sparkアプリケーションから最適化されたマッピングには、Sparkエンジンログ内の同じソースの2番目のインスタンスの情報は何も含まれません。
一時テーブルからのデータ読み取るときに、カスタマイズしたデータオブジェクトのHiveクエリによって、データのシャッフルが発生する場合を考えます。このシナリオでは、フィルタされたソース統計が、Sparkエンジンログ内の一時ソーステーブルからの読み取りの代わりに表示されます。
Spark監視が有効な状態でマッピングを実行するときは、パフォーマンスは、マッピングの複雑さに基づいて異なります。監視が有効な状態では、通常の処理時間の最大3倍の時間がかかる可能性があります。デフォルトでは、監視は無効です。
詳細統計
コンテンツパネルでマッピングジョブを選択すると、詳細パネルに
[詳細統計]
ビューが表示されます。
[詳細統計]
ビューに、ジョブ実行の行数のグラフが表示されます。
次の図に、Sparkエンジンで実行されるマッピングの詳細パネル内の
[詳細統計]
ビューを示します。
[モニタ]タブがAdministratorツールで選択されています。下の詳細パネルで[詳細統計]ビューが選択されており、この情報に、2分間に処理された行数が千単位で表されたグラフが表示されています。