はじめに
Informatica Data Engineering Integrationについて
- Informatica Data Engineering Integrationの概要
  - 例
- Data Engineering Integrationのコンポーネントアーキテクチャ
- Data Engineering Integrationのエンジン
- Data Engineeringプロセス
- データウェアハウス最適化のマッピングの例
マッピング
- マッピングの概要
- マッピングランタイムプロパティ
- JDBCソースへのPreSQLクエリとPostSQLクエリ
- Hadoop環境でのSqoopマッピング
- マッピング出力のバインディング
- 非ネイティブ環境のマッピングのルールとガイドライン
- 非ネイティブ環境でマッピングを実行するワークフロー
- 非ネイティブ環境で実行するマッピングの設定
  - Dataprocで実行するマッピングの設定
- 監査
- マッピング実行プラン
- 非ネイティブ環境でのマッピングのトラブルシューティング
- ネイティブ環境でのマッピング
マッピングの最適化
- マッピングの最適化
- マッピングの推奨事項と分析
- 一時ステージングテーブルでのデータ圧縮の有効化
  - 手順1.Hadoop接続でのデータ圧縮の有効化
  - 手順2.Hadoop環境でのデータ圧縮の有効化
- Hiveターゲットでのパーティションの切り詰め
- Hive Warehouse ConnectorおよびHive LLAP
  - Hive WarehouseコネクタとHive LLAPの有効化
- スケジュール、キュー、およびノードのラベル適用
- Data Engineering Recovery
- Sqoopパススルーマッピング向けのSparkエンジン最適化
ソース
- ソースの概要
- PowerExchangeアダプタソース
- Databricksのソース
- Hadoopのファイルソース
- Hadoopのリレーショナルソース
- HiveソースHadoop上
  - PreSQLコマンドおよびPostSQLコマンド
  - Blazeエンジン上のHiveソースのルールとガイドライン
- HadoopのSqoopソース
ターゲット
- ターゲットの概要
- PowerExchangeアダプタターゲット
- Databricksのターゲット
- Hadoopでのファイルターゲット
- Hadoopでのメッセージターゲット
- Hadoopのリレーショナルターゲット
- HadoopのHiveターゲット
- HadoopのSqoopターゲット
  - Sqoopターゲットのルールとガイドライン
トランスフォーメーション
- トランスフォーメーションの概要
- 非ネイティブ環境でのアドレスバリデータトランスフォーメーション
  - Blazeエンジンでのアドレスバリデータトランスフォーメーション
  - Sparkエンジンでのアドレスバリデータトランスフォーメーション
    - アドレスバリデータトランスフォーメーションストリーミングマッピングでの
  - アドレスバリデータトランスフォーメーション（Databricks Sparkエンジン）
- 非ネイティブ環境でのアグリゲータトランスフォーメーション
  - Blazeエンジンでのアグリゲータトランスフォーメーション
  - Sparkエンジンでのアグリゲータトランスフォーメーション
    - ストリーミングマッピングでのアグリゲータトランスフォーメーション
  - Databricks Sparkエンジンでのアグリゲータトランスフォーメーション
- 非ネイティブ環境での大文字小文字変換トランスフォーメーション
- 非ネイティブ環境での分類子トランスフォーメーション
- 非ネイティブ環境での比較トランスフォーメーション
- 非ネイティブ環境での統合トランスフォーメーション
  - Blazeエンジンでの統合トランスフォーメーション
  - Sparkエンジンでの統合トランスフォーメーション
  - Databricks Sparkエンジンでの統合トランスフォーメーション
- 非ネイティブ環境でのデータマスキングトランスフォーメーション
  - Blazeエンジンでのデータマスキングトランスフォーメーション
  - Sparkエンジンでのデータマスキングトランスフォーメーション
    - データマスキングトランスフォーメーションストリーミングマッピングでの
- 非ネイティブ環境でのデータプロセッサトランスフォーメーション
- 非ネイティブ環境でのディシジョントランスフォーメーション
  - Sparkエンジンでのディシジョントランスフォーメーション
  - Databricks Sparkエンジンでのディシジョントランスフォーメーション
- 非ネイティブ環境での式トランスフォーメーション
  - Blazeエンジンでの式トランスフォーメーション
  - Sparkエンジンでの式トランスフォーメーション
    - ストリーミングマッピングでの式トランスフォーメーション
  - Databricks Sparkエンジンでの式トランスフォーメーション
- 非ネイティブ環境でのフィルタトランスフォーメーション
  - Blazeエンジンでのフィルタトランスフォーメーション
- 階層型からリレーショナルへのトランスフォーメーション（非ネイティブ環境）
- 非ネイティブ環境でのJavaトランスフォーメーション
  - BlazeエンジンでのJavaトランスフォーメーション
  - SparkエンジンでのJavaトランスフォーメーション
    - ストリーミングマッピングでのJavaトランスフォーメーション
- 非ネイティブ環境でのジョイナトランスフォーメーション
  - Blazeエンジンでのジョイナトランスフォーメーション
  - Sparkエンジンでのジョイナトランスフォーメーション
    - ストリーミングマッピングでのジョイナトランスフォーメーション
  - Databricks Sparkエンジンでのジョイナトランスフォーメーション
- 非ネイティブ環境でのキージェネレータトランスフォーメーション
  - Blazeエンジンでのキージェネレータトランスフォーメーション
  - Sparkエンジンでのキージェネレータトランスフォーメーション
  - Databricks Sparkエンジンでのキージェネレータトランスフォーメーション
- 非ネイティブ環境でのラベラトランスフォーメーション
- 非ネイティブ環境でのルックアップトランスフォーメーション
  - Blazeエンジンでのルックアップトランスフォーメーション
  - Sparkエンジンでのルックアップトランスフォーメーション
    - ストリーミングマッピングでのルックアップトランスフォーメーション
  - Databricks Sparkエンジンでのルックアップトランスフォーメーション
- 非ネイティブ環境でのマクロトランスフォーメーション
- 非ネイティブ環境での一致トランスフォーメーション
  - Blazeエンジンでの一致トランスフォーメーション
  - Sparkエンジンでの一致トランスフォーメーション
  - Databricks Sparkエンジンでの一致トランスフォーメーション
- 非ネイティブ環境でのマージトランスフォーメーション
- 非ネイティブ環境でのノーマライザトランスフォーメーション
- 非ネイティブ環境でのパーサートランスフォーメーション
- 非ネイティブ環境でのランクトランスフォーメーション
  - Blazeエンジンでのランクトランスフォーメーション
  - Sparkエンジンでのランクトランスフォーメーション
    - ストリーミングマッピングでのランクトランスフォーメーション
  - Databricks Sparkエンジンでのランクトランスフォーメーション
- リレーショナルから階層型へのトランスフォーメーション（非ネイティブ環境）
- 非ネイティブ環境でのルータートランスフォーメーション
- 非ネイティブ環境でのルール仕様トランスフォーメーション
- シーケンスジェネレータトランスフォーメーション非ネイティブ環境で
  - Blazeエンジンでのシーケンスジェネレータトランスフォーメーション
  - Sparkエンジンでのシーケンスジェネレータトランスフォーメーション
  - シーケンスジェネレータトランスフォーメーションDatabricks Sparkエンジン
- 非ネイティブ環境でのソータートランスフォーメーション
  - Blazeエンジンでのソータートランスフォーメーション
  - Sparkエンジンでのソータートランスフォーメーション
    - ストリーミングマッピングでのソータトランスフォーメーション
  - Databricks Sparkエンジンでのソータートランスフォーメーション
- 非ネイティブ環境での標準化トランスフォーメーション
- 非ネイティブ環境での共有体トランスフォーメーション
  - ストリーミングマッピングでの共有体トランスフォーメーション
- 非ネイティブ環境でのアップデートストラテジトランスフォーメーション
  - Blazeエンジンでのアップデートストラテジトランスフォーメーション
  - Sparkエンジンでのアップデートストラテジトランスフォーメーション
  - Databricks Sparkエンジンでのアップデートストラテジトランスフォーメーション
- 非ネイティブ環境での加重平均トランスフォーメーション
Pythonトランスフォーメーション
- Pythonトランスフォーメーションの概要
- Pythonトランスフォーメーションのポート
- Pythonトランスフォーメーションの詳細プロパティ
- Pythonトランスフォーメーションのコンポーネント
  - リソースファイル
  - Pythonコード
- Pythonトランスフォーメーションのルールおよびガイドライン
  - ストリーミングマッピングでのPythonトランスフォーメーション
- Pythonトランスフォーメーションの作成
  - 再利用可能なPythonトランスフォーメーションの作成
  - 再利用不可能なPythonトランスフォーメーションの作成
- 例: IDカラムの非パーティション化データへの追加
- 例: 最も高い給与を検索するパーティションの使用
- ユースケース: トレーニング済みモデルを操作可能にする
データプレビュー
- データプレビューの概要
  - データプレビューをサポートする接続およびクラスタディストリビューション
- データプレビュープロセス
- データのプレビュー
- 階層データのデータプレビューインタフェース
- データプレビュートランスフォーメーションでの
- データプレビューログ
- Sparkエンジンでのデータプレビューに関するルールとガイドライン
クラスタワークフロー
- クラスタワークフローの概要
  - クラスタワークフロープラットフォームのサポート
- クラスタワークフローのコンポーネント
- ウォームプールを使用したDatabricksクラスタの設定
- クラスタワークフロープロセス
- クラスタの作成タスクのプロパティ
- マッピングタスクのプロパティ
- クラスタの削除タスクの追加
- ワークフローのデプロイと実行
  - Azure HDInsightクラスタワークフロージョブの監視
プロファイル
- プロファイルの概要
- ネイティブ環境
- Hadoop環境
  - Sqoopデータソースのカラムプロファイル
- サンプリングオプション
- Informatica Developerでの単一のデータオブジェクトプロファイルの作成
- Informatica Developerでのエンタープライズ検出プロファイルの作成
- Informatica Analystでのカラムプロファイルの作成
- Informatica Analystでのエンタープライズ検出プロファイルの作成
- Informatica Analystでのスコアカードの作成
- プロファイルの監視
- プロファイリング機能のサポート
- トラブルシューティング
監視
- 監視の概要
- Hadoop環境のログ
- Blazeエンジンの監視
- Sparkエンジン監視
階層データ処理
- 階層データ処理の概要
- マッピングの開発方法階層データの処理
- 復号データ型
- 複合ポート
- 複合データ型定義
- 型設定
- 複合演算子
  - 添字演算子を使用した配列要素の抽出
  - ドット演算子を使用した構造要素の抽出
- 複合関数
- Sparkエンジンでの階層データの処理に関するルールとガイドライン
- 階層データのミッドストリーム解析
階層データ処理設定
- 階層データの変換
- リレーショナルデータまたは階層データの構造データへの変換
  - 構造ポートの作成
- リレーショナルデータまたは階層データのネストされた構造データへの変換
  - ネストされた複合ポートの作成
- 階層データからの要素の抽出
  - 複合ポートからの要素の抽出
- 階層データのフラット化
  - 複合ポートのフラット化
スキーマが変更された階層データの処理
- スキーマが変更された階層データの処理の概要
- 階層データのスキーマの変更を処理する動的マッピングの開発方法
- スキーマが変更された階層データのフラット化
  - 動的構造体のフラット化
- 動的複合ポート
  - 動的ポートと動的複合ポート
  - トランスフォーメーション内の動的複合ポート
- 動的複合ポートの入力ルール
- 動的複合ポートのポートセレクタ
- 動的式
  - 例 - 動的構造を構築する動的式
- 複合演算子
- 複合関数
- 動的複合ポートのルールおよびガイドライン
- 最適化されたマッピング
インテリジェント構造モデル
- インテリジェント構造モデルの概要
- インテリジェント構造検出プロセス
- ユースケース
- マッピングでのインテリジェント構造モデルの使用
- インテリジェント構造モデルのルールとガイドライン
- インテリジェント構造モデルを使用してマッピングを作成する方法
  - マッピングの例
- Cloud Data Integrationでのインテリジェント構造モデルの作成
ブロックチェーン
- ブロックチェーンの概要
  - ブロックチェーンのプロセス
- ブロックチェーンデータオブジェクト
- ブロックチェーンデータオブジェクト操作
- ユースケース: ブロックチェーンソースを使用した車両ライフサイクルのサービス向上
  - マッピングの概要
ステートフルコンピューティング
- ステートフルコンピューティングの概要
- ウィンドウ化構成
- ウィンドウ関数
- ウィンドウ化例
付録 A: 接続リファレンス
- 接続の概要
- クラウドプロビジョニング設定
  - AWSクラウドプロビジョニング設定のプロパティ
  - Azureクラウドプロビジョニング設定のプロパティ
  - Databricksクラウドプロビジョニング設定のプロパティ
- Amazon Redshift接続のプロパティ
- Amazon S3接続のプロパティ
- ブロックチェーン接続プロパティ
- Cassandra接続のプロパティ
- Confluent Kafka接続
  - 全般プロパティ
  - Confluent Kafka Brokerのプロパティ
  - SSLプロパティ
  - infacmdを使用したConfluent Kafka接続の作成
- Databricks接続プロパティ
- Google Analytics接続のプロパティ
- Google BigQuery接続のプロパティ
- Google Cloud Spanner接続のプロパティ
- Google Cloud Storage接続のプロパティ
- Google PubSub接続のプロパティ
- Hadoop接続プロパティ
  - Hadoopクラスタプロパティ
  - 共通プロパティ
  - 拒否ディレクトリのプロパティ
  - Blaze設定
  - Spark設定
- HDFS接続プロパティ
- HBase接続プロパティ
- MapR-DBのHBase接続のプロパティ
- Hive接続のプロパティ
- JDBC接続のプロパティ
  - JDBC接続文字列
  - Sqoopの接続レベルの引数
  - Delta LakeのJDBC接続プロパティ
- JDBC V2接続のプロパティ
- Kafka接続のプロパティ
  - 全般プロパティ
  - Kafka Brokerのプロパティ
  - SSLプロパティ
  - infacmdを使用したKafka接続の作成
- Kudu接続プロパティ
- Microsoft Azure Blobストレージ接続のプロパティ
- Microsoft Azure Cosmos DB SQL API接続のプロパティ
- Microsoft Azure Data Lake Storage Gen1接続のプロパティ
- Microsoft Azure Data Lake Storage Gen2接続のプロパティ
- Microsoft Azure SQL Data Warehouse接続プロパティ
- Snowflake接続プロパティ
- ソースまたはターゲットにアクセスするための接続の作成
- Hadoop接続の作成
- Hadoop接続プロパティの設定
  - クラスタ環境変数
  - クラスタのライブラリパス
  - 共通する詳細プロパティ
  - Blazeエンジン詳細プロパティ
  - Sparkの詳細プロパティ
付録 B: データ型リファレンス
- データ型リファレンスの概要
- 非ネイティブ環境でのトランスフォーメーションデータ型のサポート
- 複合ファイルデータ型とトランスフォーメーションデータ型
- フラットファイルとトランスフォーメーションデータ型
- Hiveのデータ型とトランスフォーメーションデータ型
  - Hiveの複合データ型
- Sqoopのデータ型
付録 C: 関数リファレンス
- 非ネイティブ環境での関数サポート
- 関数とデータ型の処理

User Guide

10.5.1

前へ次へ

Sparkの詳細プロパティ

Sparkの詳細プロパティは、Sparkエンジンに固有の詳細プロパティまたはカスタムプロパティのリストです。各プロパティには名前および値が含まれます。詳細プロパティを追加または編集できます。各プロパティには名前および値が含まれます。詳細プロパティを追加または編集できます。

［Spark設定］セクションの

［詳細プロパティ］

で、次のプロパティを設定します。

テキストボックスのプロパティを編集するには、次の形式で&:を使用して名前と値のペアを区別します。

<name1>=<value1>[&:<name2>=<value2>…&:<nameN>=<valueN>]

infasjs.env.spark.context-settings.passthrough.spark.dynamicAllocation.executorIdleTimeout: Spark Jobserver実行プログラムノードを削除する前にアイドル状態にできる最長時間。Sparkエンジンを使用するデータプレビュージョブのデバッグをサポートするには、値を増やします。
この時間は、サフィックスにs
、m
、またはh
を使用して秒単位、分単位、または時単位で指定できます。時間単位を指定しない場合は、プロパティでミリ秒単位が使用されます。

動的なリソースの割り当てを無効にする場合は、このプロパティを使用しません。

デフォルトは、120秒です。

infasjs.env.spark.jobserver.max-jobs-per-context: Sparkコンテキストで同時に実行できるSparkジョブの最大数。このプロパティの値を増やす場合、spark.executor.coresおよびspark.executor.memoryを増やしてリソースの割り当てを増やす必要が生じることがあります。
デフォルトは10です。

infasjs.env.spark.jobserver.sparkJobTimeoutInMinutes: Spark JobserverでジョブをキャンセルするまでにSparkジョブをSparkコンテキストで実行できる最長時間（分単位）。Sparkエンジンを使用するデータプレビュージョブのデバッグをサポートするには、値を増やします。
デフォルトは15です。

infaspark.class.log.level.map: Sparkドライバまたは実行プログラムの特定のクラスのログレベル。このプロパティを設定すると、マッピングに設定したトレースレベルがオーバーライドされます。
このプロパティの値を、次の形式のJSON文字列に設定します。{"<完全修飾クラス名":"<ログレベル>"}

複数のクラスログレベル文をカンマで結合します。使用できるログレベルは、FATAL、WARN、INFO、DEBUG、ALLです。

例えば、次に設定します。
infaspark.class.log.level.map={"org.apache.spark.deploy.yarn.ApplicationMaster":"TRACE","org.apache.spark.deploy.security.HadoopFSDelegationTokenProvider":"DEBUG"}

infaspark.driver.cluster.mode.extraJavaOptions: クラスタ内で実行されるSparkドライバ用の追加Javaオプションのリスト。Kerberos認証を使用するKafkaクラスタとの間の読み書きを行うストリーミングマッピングに必要です。

例えば、以下を設定します。

infaspark.driver.cluster.mode.extraJavaOptions= -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -Djavax.security.auth.useSubjectCredsOnly=true -Djava.security.krb5.conf=/<path to keytab file>/krb5.conf -Djava.security.auth.login.config=<path to jaas config>/kafka_client_jaas.config

特定のユーザーのプロパティを設定するには、次のコード行を含めます。

infaspark.driver.cluster.mode.extraJavaOptions = -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -XX:+UseG1GC -XX:MaxGCPauseMillis=500 -Djava.security.krb5.conf=/etc/krb5.conf

infaspark.driver.log.level: Sparkドライバのログのログレベル。このプロパティを設定すると、マッピングに設定したトレースレベルがオーバーライドされます。
値をFATAL、WARN、INFO、DEBUG、ALLのいずれかのレベルに設定します。

infaspark.executor.extraJavaOptions: Spark実行プログラム用の追加Javaオプションのリスト。Kerberos認証を使用するKafkaクラスタとの間の読み書きを行うストリーミングマッピングに必要です。

例えば、以下を設定します。

infaspark.executor.extraJavaOptions= -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -Djavax.security.auth.useSubjectCredsOnly=true -Djava.security.krb5.conf=/<path to krb5.conf file>/krb5.conf -Djava.security.auth.login.config=/<path to jAAS config>/kafka_client_jaas.config

特定のユーザーのプロパティを設定するには、次のコード行を含めます。

infaspark.executor.extraJavaOptions = -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -XX:+UseG1GC -XX:MaxGCPauseMillis=500 -Djava.security.krb5.conf=/etc/krb5.conf

infaspark.executor.log.level: Spark実行プログラムのログのログレベル。このプロパティを設定すると、マッピングに設定したトレースレベルがオーバーライドされます。
値をFATAL、WARN、INFO、DEBUG、ALLのいずれかのレベルに設定します。

infaspark.flatfile.writer.nullValue: Databricks Sparkエンジンがターゲットに書き込むときに、NULL値は空の文字列（「」）に変換されます。例: 12, AB,"",23p09udj。; Databricks Sparkエンジンは文字列カラムに空の文字列を書き込むことができますが、空の文字列を非文字列カラムに書き込もうとすると、タイプの不一致でマッピングが失敗します。
Databricks Sparkエンジンで空の文字列をNULL値に戻してターゲットに書き込めるようにするには、Databricks Spark接続でプロパティを設定します。

TRUEに設定します。

infaspark.json.parser.mode: 破損したJSONレコードの処理方法をパーサーに指定します。次のいずれかのモードに値を設定できます。

DROPMALFORMED。パーサーは破損したすべてのレコードを無視します。デフォルトのモードです。
PERMISSIVE。パーサーは、破損したレコードの標準ではないフィールドをNULLとして受け取ります。
FAILFAST。パーサーが破損したレコードを検出し、Sparkアプリケーションがダウンした場合、パーサーは例外を生成します。

infaspark.json.parser.multiLine: JSONファイルの複数行のレコードをパーサーが読み取れるかどうかを指定します。この値は、trueまたはfalseに設定できます。デフォルトはfalseです。Sparkバージョン2.2.x以上を使用する非ネイティブのディストリビューションにのみ適用します。

infaspark.pythontx.exec: Data Engineering Integration用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。Hadoopクラスタの作業ノード上のPython実行可能バイナリの場所。

例えば、以下を設定します。
infaspark.pythontx.exec=/usr/bin/python3.4

データ統合サービスマシン上でPythonのインストールを使用する場合、データ統合サービスマシン上のInformaticaインストールディレクトリのPython実行可能バイナリに値を設定します。

例えば、以下を設定します。
infaspark.pythontx.exec=INFA_HOME/services/shared/spark/python/lib/python3.4

infaspark.pythontx.executorEnv.LD_PRELOAD: Data Engineering Streaming用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。データ統合サービスマシン上にある、Pythonインストールフォルダ内のPython共有ライブラリの場所。

例えば、以下を設定します。

infaspark.pythontx.executorEnv.LD_PRELOAD= INFA_HOME/services/shared/spark/python/lib/libpython3.6m.so

infaspark.pythontx.executorEnv.PYTHONHOME: Data Engineering IntegrationとData Engineering Streaming用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。Hadoopクラスタの作業ノード上のPythonインストールディレクトリの場所。

例えば、以下を設定します。
infaspark.pythontx.executorEnv.PYTHONHOME=/usr

データ統合サービスマシン上でPythonのインストールを使用する場合、データ統合サービスマシン上のPythonインストールディレクトリの場所を使用します。

例えば、以下を設定します。
infaspark.pythontx.executorEnv.PYTHONHOME= INFA_HOME/services/shared/spark/python/

infaspark.pythontx.submit.lib.JEP_HOME: Data Engineering Streaming用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。データ統合サービスマシン上にある、Pythonインストールフォルダ内のJepパッケージの場所。

例えば、以下を設定します。
infaspark.pythontx.submit.lib.JEP_HOME= INFA_HOME/services/shared/spark/python/lib/python3.6/site-packages/jep/

infaspark.useHiveWarehouseAPI: Hive Warehouse Connectorを有効にします。TRUEに設定します。
例えば、
infaspark.useHiveWarehouseAPI=true
と設定します。

spark.authenticate: HadoopでのSparkサービスの認証を有効にします。Sparkの暗号化に必要です。

TRUEに設定します。

例:
spark.authenticate=TRUE

spark.authenticate.enableSaslEncryption: SASL認証が有効になっている場合に、暗号化された通信を有効にします。Sparkの暗号化でSASL認証が使用される場合に必要です。

TRUEに設定します。

例:
spark.authenticate.enableSaslEncryption=TRUE

spark.datasource.hive.warehouse.load.staging.dir: Hiveへのバッチ書き込みに使用される一時HDFSファイルのディレクトリ。Hive Warehouse Connectorを有効にする場合に必要です。
例えば、
/tmp
に設定します

spark.datasource.hive.warehouse.metastoreUri: HiveメタストアのURI。Hive Warehouse Connectorを有効にする場合に必要です。hive_site_xmlクラスタ設定プロパティからhive.metastore.urisの値を使用します。
例えば、
thrift://mycluster-1.com:9083
に設定します。

spark.driver.cores: 各ドライバがSparkエンジンでジョブを実行するために使用するコアの数を示します。
spark.driver.cores=1
に設定します。

spark.driver.extraJavaOptions: Sparkドライバ用の追加のJavaオプションのリスト。
複合データ型内のDate/Timeデータを、Hortonworks HDP 3.1クラスタを使用してHiveターゲットに書き込む場合は、このプロパティに値
-Duser.timezone=UTC
を追加します。

spark.driver.memory: Sparkエンジンがジョブを実行するために使用するドライバプロセスメモリの量を示します。
推奨値: データソースごとに少なくとも256 MBを割り当てます。

spark.driver.memory=3G
に設定します。

spark.executor.cores: 各実行プログラムプロセスがSparkエンジンでタスクレットを実行するために使用するコアの数を示します。
spark.executor.cores=1
に設定します。

spark.executor.extraJavaOptions: Spark実行プログラム用の追加Javaオプションのリスト。
複合データ型内のDate/Timeデータを、Hortonworks HDP 3.1クラスタを使用してHiveターゲットに書き込む場合は、このプロパティに値
-Duser.timezone=UTC
を追加します。

spark.executor.instances: 各実行プログラムプロセスがSparkエンジンでタスクレットを実行するために使用するインスタンスの数を示します。
spark.executor.instances=1
に設定します。

spark.executor.memory: 各実行プログラムプロセスがSparkエンジンでタスクレットを実行するために使用するメモリの量を示します。
spark.executor.memory=3G
に設定します。

spark.hadoop.hive.llap.daemon.service.hosts: LLAPサービスのアプリケーション名。Hive Warehouse Connectorを有効にする場合に必要です。hive_site_xmlクラスタ設定プロパティからhive.llap.daemon.service.hostsの値を使用します。

spark.hadoop.hive.zookeeper.quorum: Hive LLAPが使用するZookeeperホスト。Hive Warehouse Connectorを有効にする場合に必要です。hive_site_xmlクラスタ設定プロパティからhive.zookeeper.quorumの値を使用します。

spark.hadoop.validateOutputSpecs: HBaseテーブルが存在するかどうかを検証します。Amazon EMRクラスタのHBaseターゲットに書き込みを行うストリーミングマッピングに必要です。値をfalseに設定します。

spark.scheduler.maxRegisteredResourcesWaitingTime: タスクをスケジュール設定する前に、リソースの登録を待機する時間（ミリ秒）。デフォルトは30000です。Sparkジョブの実行を開始する前に、この値を小さくして遅延を減らします。Sparkエンジンでのマッピングのパフォーマンスを向上させるために必要です。

15000に設定します。

例:
spark.scheduler.maxRegisteredResourcesWaitingTime=15000

spark.scheduler.minRegisteredResourcesRatio: タスクのスケジュール設定が開始される前に取得される登録済みリソースの最小比率。デフォルトは0.8です。Sparkジョブの実行を開始する前に、この値を小さくして遅延を減らします。Sparkエンジンでのマッピングのパフォーマンスを向上させるために必要です。

0.5に設定します。

例:
spark.scheduler.minRegisteredResourcesRatio=0.5

spark.shuffle.encryption.enabled: 認証が有効になっている場合に、暗号化された通信を有効にします。Sparkの暗号化に必要です。

TRUEに設定します。

例:
spark.shuffle.encryption.enabled=TRUE

spark.sql.hive.hiveserver2.jdbc.url: HiveServer2 InteractiveのURL。Hive Warehouse Connectorを使用するために必要です。HiveServer2 JDBC URLにはAmbariの値を使用します。

spark.yarn.access.hadoopFileSystems: Sparkサービスがアクセスできる外部ファイルシステムのカンマ区切りのリスト。デフォルトでは、Sparkサービスは、クラスタ設定のcore-site.xml設定セットのfs.defaultFSにリストされているファイルシステムにアクセスできます。このプロパティを、Sparkサービスに追加のファイルシステムへのアクセスを許可するように設定します。; Cloudera CDPパブリッククラウドクラスタでマッピングを実行し、Cloudera Data LakeクラスタでHDFSを使用する場合は、そのファイルシステムへのアクセスを許可する必要があります。Data Lakeクラスタ上の
core-site.xml
にあるプロパティfs.defaultFSの値を追加します。For example:
spark.yarn.access.hadoopFileSystems=hdfs://infarndcdppamdl-master1.infarndc.src9-ltfl.cloudera.site:8020

Hadoop接続プロパティの設定

ガイドをダウンロード

ページをウォッチ

フィードバックを送信

コミュニティ

Knowledge Base

Success Portal

Rename Saved Search

目次

User Guide

User Guide

Sparkの詳細プロパティ

Sparkの詳細プロパティ