Communities
A collaborative platform to connect and grow with like-minded Informaticans across the globe
Product Communities
Connect and collaborate with Informatica experts and champions
Discussions
Have a question? Start a Discussion and get immediate answers you are looking for
User Groups
Customer-organized groups that meet online and in-person. Join today to network, share ideas, and get tips on how to get the most out of Informatica
Get Started
Community Guidelines
Knowledge Center
Troubleshooting documents, product guides, how to videos, best practices, and more
Knowledge Base
One-stop self-service portal for solutions, FAQs, Whitepapers, How Tos, Videos, and more
Support TV
Video channel for step-by-step instructions to use our products, best practices, troubleshooting tips, and much more
Documentation
Information library of the latest product documents
Velocity (Best Practices)
Best practices and use cases from the Implementation team
Learn
Rich resources to help you leverage full capabilities of our products
Trainings
Role-based training programs for the best ROI
Certifications
Get certified on Informatica products. Free, Foundation, or Professional
Product Learning Paths
Free and unlimited modules based on your expertise level and journey
Resources
Library of content to help you leverage the best of Informatica products
Tech Tuesdays Webinars
Most popular webinars on product architecture, best practices, and more
Product Availability Matrix
Product Availability Matrix statements of Informatica products
SupportFlash
Monthly support newsletter
Support Documents
Informatica Support Guide and Statements, Quick Start Guides, and Cloud Product Description Schedule
Product Lifecycle
End of Life statements of Informatica products
Ideas
Events
Change Request Tracking
Marketplace
日本語
English
英語
Español
スペイン語
Deutsch
ドイツ語
Français
フランス語
日本語
日本語
한국어
韓国語
Português
ポルトガル語
中文
中国語
ログイン
サインアップ
Data Engineering Integration
10.2.2 Service Pack 1
10.5.8
10.5.7
10.5.6
10.5.3
10.5.2
10.5.1
10.5
10.4.1
10.4.0
10.2.2 HotFix 1
10.2.2 Service Pack 1
10.2.2
10.2.1
ユーザーガイド
更新済み: June 2019
Data Engineering Integration
Data Engineering Integration 10.2.2 Service Pack 1
所有产品
Rename Saved Search
Name
* This field is required
Overwrite saved search
Confirm Deletion
Are you sure you want to delete the saved search?
目次
Search
No Results
はじめに
Informatica Big Data Managementの概要
Informatica Big Data Managementの概要
例
Big Data Managementコンポーネントアーキテクチャ
クライアントおよびツール
アプリケーションサービス
リポジトリ
Hadoopの統合
Hadoopのユーティリティ
Databricksの統合
Big Data Managementエンジン
Blazeエンジン上のランタイム処理
アプリケーションタイムラインサーバー
Sparkエンジン上のランタイム処理
Databricks Sparkエンジン上のランタイム処理
Big Dataプロセス
手順1。データの収集
手順2。データのクレンジング
手順3。データの変換
手順4。データの処理
手順5。ジョブの監視
データウェアハウス最適化のマッピングの例
マッピング
マッピングの概要
マッピングランタイムプロパティ
検証環境
実行環境
SparkエンジンのJSONレコードの解析
拒否ファイルディレクトリ
マッピング実行のための計算クラスタの変更
複数のマッピングのランタイムプロパティの更新
Hadoop環境でのSqoopマッピング
Sqoopマッピングレベル引数
mまたはnum-mappers
split-by
batch
infaoptimize
infaownername
スキーマ
verbose
Sqoopマッピングの差分データ抽出
マッピングのSqoopプロパティの設定
マッピングでのSqoop引数のパラメータの設定
非ネイティブ環境のマッピングのルールとガイドライン
Blazeエンジンでのマッピングのルールとガイドライン
Sparkエンジンでのマッピングのルールとガイドライン
Databricks Sparkエンジンでのマッピングのルールとガイドライン
非ネイティブ環境でマッピングを実行するワークフロー
非ネイティブ環境で実行するマッピングの設定
マッピング実行プラン
Blazeエンジンの実行プランの詳細
Sparkエンジンの実行プランの詳細
Databricks Sparkエンジンの実行の詳細
実行プランの表示
Hadoop環境向けの最適化
Blazeエンジン高可用性
一時ステージングテーブルでのデータ圧縮の有効化
手順1.Hadoop接続でのデータ圧縮の有効化
手順2.Hadoop環境でのデータ圧縮の有効化
Hiveターゲットでのパーティションの切り詰め
スケジュール、キュー、およびノードのラベル適用
スケジュール設定とノードラベルの有効化
YARNキューの定義
ノードラベルを使用するためのBlazeエンジンの設定
Big Dataジョブリカバリ
Sqoopパススルーマッピング向けのSparkエンジン最適化
非ネイティブ環境でのマッピングのトラブルシューティング
ネイティブ環境でのマッピング
データプロセッサのマッピング
HDFSマッピング
HDFSデータ抽出マッピングの例
Hiveマッピング
Hiveマッピングの例
ソーシャルメディアマッピング
Twitterマッピングの例
ネイティブ環境の最適化
グリッドでのビッグデータの処理
パーティションでのビッグデータの処理
パーティションの最適化
高可用性
ソース
ソースの概要
PowerExchangeアダプタソース
Databricksのソース
ADLSの複合ファイルソース
Azure Blobの複合ファイルソース
Databricksソースのルールとガイドライン
ファイルソースHadoop上
Amazon S3の複合ファイルソース
ADLSの複合ファイルソース
Azure Blobの複合ファイルソース
MapR-FSの複合ファイルソース
HDFSの複合ファイルソース
フラットファイルソースHadoop上
ソースファイル名の生成
Hadoopのリレーショナルソース
HiveソースHadoop上
PreSQLコマンドおよびPostSQLコマンド
Blazeエンジン上のHiveソースのルールとガイドライン
HadoopのSqoopソース
Sqoopを使用したVerticaソースからのデータ読み取り
Sqoopソースのルールとガイドライン
Sqoopクエリのルールとガイドライン
ターゲット
ターゲットの概要
PowerExchangeアダプタターゲット
Databricksのターゲット
ADLSの複合ファイルターゲット
Azure Blobの複合ファイルターゲット
Databricksターゲットのルールとガイドライン
Hadoopでのファイルターゲット
Amazon S3の複合ファイルターゲット
ADLSの複合ファイルターゲット
Azure Blobの複合ファイルターゲット
MapR-FSの複合ファイルターゲット
HDFSの複合ファイルターゲット
フラットファイルターゲットHadoop上
Hadoopでのメッセージターゲット
Hadoopのリレーショナルターゲット
HadoopでのHiveターゲット
PreSQLコマンドおよびPostSQLコマンド
Hiveターゲットの切り詰め
アップデートストラテジトランスフォーメーションを使用したHiveターゲットの更新
Blazeエンジン上のHiveターゲットのルールとガイドライン
HadoopのSqoopターゲット
Sqoopターゲットのルールとガイドライン
トランスフォーメーション
トランスフォーメーションの概要
非ネイティブ環境でのアドレスバリデータトランスフォーメーション
Blazeエンジンでのアドレスバリデータトランスフォーメーション
Sparkエンジンでのアドレスバリデータトランスフォーメーション
非ネイティブ環境でのアグリゲータトランスフォーメーション
Blazeエンジンでのアグリゲータトランスフォーメーション
Sparkエンジンでのアグリゲータトランスフォーメーション
ストリーミングマッピングでのアグリゲータトランスフォーメーション
Databricks Sparkエンジンでのアグリゲータトランスフォーメーション
非ネイティブ環境での大文字小文字変換トランスフォーメーション
非ネイティブ環境での分類子トランスフォーメーション
非ネイティブ環境での比較トランスフォーメーション
非ネイティブ環境での統合トランスフォーメーション
Blazeエンジンでの統合トランスフォーメーション
Sparkエンジンでの統合トランスフォーメーション
非ネイティブ環境でのデータマスキングトランスフォーメーション
Blazeエンジンでのデータマスキングトランスフォーメーション
Sparkエンジンでのデータマスキングトランスフォーメーション
データマスキングトランスフォーメーションストリーミングマッピングでの
非ネイティブ環境でのデータプロセッサトランスフォーメーション
Blazeエンジンでのデータプロセッサトランスフォーメーション
非ネイティブ環境でのディシジョントランスフォーメーション
Sparkエンジンでのディシジョントランスフォーメーション
非ネイティブ環境での式トランスフォーメーション
Blazeエンジンでの式トランスフォーメーション
Sparkエンジンでの式トランスフォーメーション
ストリーミングマッピングでの式トランスフォーメーション
Databricks Sparkエンジンでの式トランスフォーメーション
非ネイティブ環境でのフィルタトランスフォーメーション
Blazeエンジンでのフィルタトランスフォーメーション
非ネイティブ環境でのJavaトランスフォーメーション
BlazeエンジンでのJavaトランスフォーメーション
SparkエンジンでのJavaトランスフォーメーション
ストリーミングマッピングでのJavaトランスフォーメーション
非ネイティブ環境でのジョイナトランスフォーメーション
Blazeエンジンでのジョイナトランスフォーメーション
Sparkエンジンでのジョイナトランスフォーメーション
ストリーミングマッピングでのジョイナトランスフォーメーション
Databricks Sparkエンジンでのジョイナトランスフォーメーション
非ネイティブ環境でのキージェネレータトランスフォーメーション
非ネイティブ環境でのラベラトランスフォーメーション
非ネイティブ環境でのルックアップトランスフォーメーション
Blazeエンジンでのルックアップトランスフォーメーション
Sparkエンジンでのルックアップトランスフォーメーション
ストリーミングマッピングでのルックアップトランスフォーメーション
Databricks Sparkエンジンでのルックアップトランスフォーメーション
非ネイティブ環境での一致トランスフォーメーション
Blazeエンジンでの一致トランスフォーメーション
Sparkエンジンでの一致トランスフォーメーション
非ネイティブ環境でのマージトランスフォーメーション
非ネイティブ環境でのノーマライザトランスフォーメーション
非ネイティブ環境でのパーサートランスフォーメーション
非ネイティブ環境でのPythonトランスフォーメーション
SparkエンジンでのPythonトランスフォーメーション
ストリーミングマッピングでのPythonトランスフォーメーション
非ネイティブ環境でのランクトランスフォーメーション
Blazeエンジンでのランクトランスフォーメーション
Sparkエンジンでのランクトランスフォーメーション
ストリーミングマッピングでのランクトランスフォーメーション
Databricks Sparkエンジンでのランクトランスフォーメーション
非ネイティブ環境でのルータートランスフォーメーション
シーケンスジェネレータトランスフォーメーション非ネイティブ環境で
Blazeエンジンでのシーケンスジェネレータトランスフォーメーション
Sparkエンジンでのシーケンスジェネレータトランスフォーメーション
非ネイティブ環境でのソータートランスフォーメーション
Blazeエンジンでのソータートランスフォーメーション
Sparkエンジンでのソータートランスフォーメーション
ストリーミングマッピングでのソータトランスフォーメーション
Databricks Sparkエンジンでのソータートランスフォーメーション
非ネイティブ環境での標準化トランスフォーメーション
非ネイティブ環境での共有体トランスフォーメーション
ストリーミングマッピングでの共有体トランスフォーメーション
非ネイティブ環境でのアップデートストラテジトランスフォーメーション
Blazeエンジンでのアップデートストラテジトランスフォーメーション
Sparkエンジンでのアップデートストラテジトランスフォーメーション
非ネイティブ環境での加重平均トランスフォーメーション
クラスタワークフロー
クラスタワークフローの概要
クラスタワークフローのコンポーネント
クラスタワークフロープロセス
クラスタの作成タスクのプロパティ
Azure HDInsightの詳細プロパティ
Amazon EMRの詳細プロパティ
全般オプション
マスタインスタンスグループのオプション
コアインスタンスグループのオプション
タスクインスタンスグループのオプション
追加オプション
Blazeエンジンの詳細プロパティ
Hiveメタストアデータベースの詳細プロパティ
Databricksの詳細プロパティ
全般オプション
詳細オプション
マッピングタスクのプロパティ
クラスタの削除タスクの追加
ワークフローのデプロイと実行
Azure HDInsightクラスタワークフロージョブの監視
プロファイル
プロファイルの概要
ネイティブ環境
Hadoop環境
Sqoopデータソースのカラムプロファイル
Informatica Developerでの単一のデータオブジェクトプロファイルの作成
Informatica Developerでのエンタープライズ検出プロファイルの作成
Informatica Analystでのカラムプロファイルの作成
Informatica Analystでのエンタープライズ検出プロファイルの作成
Informatica Analystでのスコアカードの作成
プロファイルの監視
プロファイリング機能のサポート
トラブルシューティング
監視
監視の概要
Hadoop環境のログ
YARN Webユーザーインタフェース
監視URLへのアクセス
AdministratorツールでのHadoop環境ログの表示
マッピングの監視
Blazeエンジンの監視
Blazeジョブ監視アプリケーション
Blazeサマリレポート
個々のセグメントで費やされる時間
マッピングプロパティ
タスクレットの実行時間
選択したタスクレットの情報
Blazeエンジンのログ
Blazeログの表示
オーケストレータのサンセット時間
Blaze監視のトラブルシューティング
Sparkエンジン監視
Hiveタスクの表示
Sparkエンジンのログ
Sparkログの表示
Sparkエンジン監視のトラブルシューティング
階層データ処理
階層データ処理の概要
マッピングの開発方法階層データの処理
復号データ型
arrayデータ型
Mapデータ型
Structデータ型
複合データ型のルールとガイドライン
複合ポート
トランスフォーメーション内の複合ポート
複合ポートのルールとガイドライン
複合ポートの作成
複合データ型定義
ネストされたデータ型定義
複合データ型定義のルールとガイドライン
複合データ型定義の作成
複合データ型定義のインポート
型設定
配列ポートのタイプ設定の変更
マップポートのタイプ設定の変更
構造ポートの型設定の指定
複合演算子
添字演算子を使用した配列要素の抽出
ドット演算子を使用した構造要素の抽出
複合関数
階層データプレビュー
階層データプレビュープロセス
データプレビューインタフェーステーブル
データビューア
データのエクスポート
階層タイプパネル
階層データのプレビュー
階層データプレビューのルールおよびガイドライン
階層データ処理設定
階層データの変換
リレーショナルデータまたは階層データの構造データへの変換
構造ポートの作成
リレーショナルデータまたは階層データのネストされた構造データへの変換
ネストされた複合ポートの作成
階層データからの要素の抽出
複合ポートからの要素の抽出
階層データのフラット化
複合ポートのフラット化
スキーマが変更された階層データの処理
スキーマが変更された階層データの処理の概要
階層データのスキーマの変更を処理する動的マッピングの開発方法
動的複合ポート
動的ポートと動的複合ポート
トランスフォーメーション内の動的複合ポート
動的複合ポートの入力ルール
動的配列の入力ルール
動的マップの入力ルール
動的構造の入力ルール
動的複合ポートのポートセレクタ
動的式
例 - 動的構造を構築する動的式
複合演算子
複合関数
動的複合ポートのルールおよびガイドライン
最適化されたマッピング
インテリジェント構造モデル
インテリジェント構造モデルの概要
インテリジェント構造検出プロセス
ユースケース
マッピングでのインテリジェント構造モデルの使用
インテリジェント構造モデルのルールとガイドライン
作業を開始する前に
インテリジェント構造モデルを使用してデータを処理するためのマッピングの開発および実行方法
マッピングの例
Informatica Intelligent Cloud Servicesアカウントの作成
インテリジェント構造モデルの作成
インテリジェント構造モデルのエクスポート
データ損失のチェック
ステートフルコンピューティング
ステートフルコンピューティングの概要
ウィンドウ化構成
フレーム
パーティションキーおよびオーダーキー
ウィンドウ化構成のルールとガイドライン
ウィンドウ関数
LEAD
LAG
ウィンドウ関数としての集計関数
集計オフセット
ネストされた集計関数
ウィンドウ関数のルールとガイドライン
ウィンドウ化例
財務プランの例
GPS pingの例
ウィンドウ関数としての集計関数例
接続
接続
クラウドプロビジョニング設定
AWSクラウドプロビジョニング設定のプロパティ
全般プロパティ
権限
EC2設定
Azureクラウドプロビジョニング設定のプロパティ
認証の詳細
ストレージアカウントの詳細
クラスタデプロイメントの詳細
外部Hiveメタストアの詳細
Databricksクラウドプロビジョニング設定のプロパティ
Amazon Redshift接続のプロパティ
Amazon S3接続のプロパティ
Cassandra接続のプロパティ
Databricks接続のプロパティ
Google Analytics接続のプロパティ
Google BigQuery接続のプロパティ
Google Cloud Spanner接続のプロパティ
Google Cloud Storage接続のプロパティ
Hadoop接続プロパティ
Hadoopクラスタプロパティ
共通プロパティ
拒否ディレクトリのプロパティ
Hiveプッシュダウン設定
Blaze設定
Spark設定
HDFS接続プロパティ
HBase接続プロパティ
MapR-DBのHBase接続のプロパティ
Hive接続のプロパティ
JDBC接続のプロパティ
JDBC接続文字列
Sqoopの接続レベルの引数
Kafka接続のプロパティ
Microsoft Azure Blobストレージ接続のプロパティ
Microsoft Azure Cosmos DB SQL API接続のプロパティ
Microsoft Azure Data Lake Store接続プロパティ
Microsoft Azure SQL Data Warehouse接続プロパティ
Snowflake接続プロパティ
ソースまたはターゲットにアクセスするための接続の作成
Hadoop接続の作成
Hadoop接続プロパティの設定
クラスタ環境変数
クラスタのライブラリパス
共通する詳細プロパティ
Blazeエンジン詳細プロパティ
Sparkの詳細プロパティ
データ型リファレンス
データ型リファレンスの概要
非ネイティブ環境でのトランスフォーメーションデータ型のサポート
複合ファイルデータ型とトランスフォーメーションデータ型
Avroデータ型とトランスフォーメーションデータ型
Avro Unionデータ型
サポートされていないAvroデータ型
JSONのデータ型とトランスフォーメーションデータ型
サポートされていないJSONのデータ型
Parquetのデータ型とトランスフォーメーションデータ型
Parquet Unionデータ型
サポートされていないParquetのデータ型
Hiveのデータ型とトランスフォーメーションデータ型
Hiveの複合データ型
Sqoopのデータ型
Auroraのデータ型
IBM DB2およびDB2 for z/OSのデータ型
Greenplumのデータ型
Microsoft SQL Serverデータ型
Netezzaのデータ型
Oracleのデータ型
Teradataのデータ型
Sqoop用のTDCH専用コネクタを備えたTeradataのデータ型
Verticaのデータ型
関数リファレンス
非ネイティブ環境での関数サポート
関数とデータ型の処理
Sparkエンジン処理のルールとガイドライン
Data Engineering Integration 10.2.2 Service Pack 1
Help for Users
ユーザーガイド
監視
Sparkエンジン監視
ユーザーガイド
ユーザーガイド
10.2.2 Service Pack 1
10.5.7
10.5.1
10.4.0
10.2.2 HotFix 1
10.2.2
前へ
次へ
Sparkエンジン監視
Sparkエンジン監視
Administratorツールの[モニタ]タブで、Sparkエンジンマッピングジョブの統計情報を監視し、ログイベントを表示できます。Sparkエンジンのマッピングジョブは、YARN Webユーザーインタフェースでも監視できます。
次の図に、Administratorツールの[モニタ]タブを示します。
[モニタ]タブには、次のビューが含まれています。
サマリ統計
[サマリ統計]
ビューを使用すると、データ統合サービスでのオブジェクトの状態および分布のサマリをグラフで表示できます。データ統合サービスでオブジェクトを実行するために使用されたメモリおよびCPUのグラフを表示することもできます。
実行統計
[実行統計]
ビューを使用すると、プロパティ、ランタイム統計、およびランタイムレポートを監視できます。ナビゲータで[データ統合サービス]を展開して
[アドホックジョブ]
を監視する、またはアプリケーションを展開してデプロイ済みのマッピングジョブやワークフローを監視できます。
[アドホックジョブ]
、デプロイ済みのマッピングジョブ、ワークフローを
[実行統計]
ビューのナビゲータのアプリケーションから選択すると、コンテンツパネルにジョブのリストが表示されます。コンテンツパネルに、キューに追加された、実行中、完了、失敗、中断、キャンセルの状態にあるジョブが表示されます。データ統合サービスは、十分なリソースを使用できるときに、キューに追加された状態のジョブをクラスタに送信します。
コンテンツパネルでは、ジョブタイプに基づいて、関連ジョブがグループ化されています。ジョブタイプを展開して、その下の関連ジョブを表示できます。
[実行統計]
ビューで、次のビューにアクセスします。
プロパティ
[プロパティ]
ビューに、選択したジョブについて、名前、ジョブタイプ、ジョブを開始したユーザー、ジョブの開始時刻など、全般的なプロパティが表示されます。
Spark実行プラン
マッピングのSpark実行プランを表示するときに、データ統合サービスは、マッピングをScalaプログラムと任意選択のコマンドセットに変換します。実行プランによって、これらのコマンドとScalaプログラムコードが表示されます。
サマリ統計
コンテンツパネルでマッピングジョブを選択すると、詳細パネルに
[サマリ統計]
ビューが表示されます。
[サマリ統計]
ビューに、次のジョブのスループット統計が表示されます。
プレジョブタスクSparkジョブ実行前にソースデータを読み取り、行データを一時テーブルにステージングする各ジョブタスクの名前。各秒に処理されたバイト数と平均バイト数を表示することもできます。
ソース。ソースの名前。
ターゲット。ターゲットの名前。
行。ソースでは、Sparkアプリケーションによって読み取られた行数。ターゲットでは、ターゲットおよび拒否行に書き込まれた行の総数。
ポストジョブタスク。ステージングされたテーブルからターゲットデータを書き込む各ジョブタスクの名前。各秒に処理されたバイト数と平均バイト数を表示することもできます。
マッピングに複数のアップストリームソースを含む共有体トランスフォーメーションが含まれる場合、ソースは、[ソース]の下の1行にカンマ区切りリストの形式で表示されます。
DD_UPDATE条件を含むアップデートストラテジトランスフォーメーションを含むHiveマッピングでは、Sparkジョブの実行後、ターゲットに一時テーブルのみが含まれています。マッピングジョブ統計の結果は、ポストジョブタスクに表示され、更新されたレコード数の2倍を示します。
次の図に、Sparkエンジンで実行されるマッピングの詳細パネル内の
[サマリ統計]
ビューを示します。
Sparkの実行ステージ情報を、[実行統計]の[モニタ]タブの[サマリ統計]ビューの詳細ペインで参照することもできます。ソースの後、ターゲットの前にリストとして表示されます。
Spark実行ステージ
に、Sparkアプリケーションのステージ統計と関連する行とバイトの絶対数とスループットが表示されます。行はステージが書き込む行数を表し、バイトはステージ内でブロードキャストされるバイト数を表します。
次の図に、Spark実行ステージを示します。
例えば、Spark実行ステージカラムには、
stage_<ID>
で始まるSparkアプリケーションのステージングされた情報が格納されます。例では、
Stage_0
に、
ID=0
の値を持つSparkアプリケーションのSpark実行ステージと関連する統計が表示されています。
Sparkエンジンが、詳細データが有効化された自己結合を含むソースデータを読み取る場合を考えます。このシナリオでは、Sparkアプリケーションから最適化されたマッピングには、Sparkエンジンログ内の同じソースの2番目のインスタンスの情報は何も含まれません。
一時テーブルからのデータ読み取るときに、カスタマイズしたデータオブジェクトのHiveクエリによって、データのシャッフルが発生する場合を考えます。このシナリオでは、フィルタされたソース統計が、Sparkエンジンログ内の一時ソーステーブルからの読み取りの代わりに表示されます。
Spark監視が有効な状態でマッピングを実行するときは、パフォーマンスは、マッピングの複雑さに基づいて異なります。監視が有効な状態では、通常の処理時間の最大3倍の時間がかかる可能性があります。デフォルトでは、監視は無効です。
詳細統計
コンテンツパネルでマッピングジョブを選択すると、詳細パネルに
[詳細統計]
ビューが表示されます。
[詳細統計]
ビューに、ジョブ実行の行数のグラフが表示されます。
次の図に、Sparkエンジンで実行されるマッピングの詳細パネル内の
[詳細統計]
ビューを示します。
監視
Hiveタスクの表示
Sparkエンジンのログ
Sparkログの表示
Sparkエンジン監視のトラブルシューティング
行動
ガイドをダウンロード
ページをウォッチ
フィードバックを送信
リソース
コミュニティ
Knowledge Base
Success Portal
トップに戻る
前へ
次へ