目次

Search

  1. はじめに
  2. Informatica Big Data Managementの概要
  3. マッピング
  4. ソース
  5. ターゲット
  6. トランスフォーメーション
  7. クラスタワークフロー
  8. プロファイル
  9. 監視
  10. 階層データ処理
  11. 階層データ処理設定
  12. スキーマが変更された階層データの処理
  13. インテリジェント構造モデル
  14. ステートフルコンピューティング
  15. 接続
  16. データ型リファレンス
  17. 関数リファレンス

ユーザーガイド

ユーザーガイド

Sparkの詳細プロパティ

Sparkの詳細プロパティ

Sparkの詳細プロパティは、Sparkエンジンに固有の詳細プロパティまたはカスタムプロパティのリストです。各プロパティには名前および値が含まれます。詳細プロパティを追加または編集できます。各プロパティには名前および値が含まれます。詳細プロパティを追加または編集できます。
[Spark設定]セクションの
[詳細プロパティ]
で、次のプロパティを設定します。
テキストボックスのプロパティを編集するには、次の形式で&:を使用して名前と値のペアを区別します。
<name1>=<value1>[&:<name2>=<value2>…&:<nameN>=<valueN>]
spark.authenticate
HadoopでのSparkサービスの認証を有効にします。Sparkの暗号化に必要です。
TRUEに設定します。
例:
spark.authenticate=TRUE
spark.authenticate.enableSaslEncryption
SASL認証が有効になっている場合に、暗号化された通信を有効にします。Sparkの暗号化でSASL認証が使用される場合に必要です。
TRUEに設定します。
例:
spark.authenticate.enableSaslEncryption=TRUE
spark.executor.cores
各実行プログラムプロセスがSparkエンジンでタスクレットを実行するために使用するコアの数を示します。
spark.executor.cores=1
に設定します。
spark.executor.instances
各実行プログラムプロセスがSparkエンジンでタスクレットを実行するために使用するインスタンスの数を示します。
spark.executor.instances=1
に設定します。
spark.executor.memory
各実行プログラムプロセスがSparkエンジンでタスクレットを実行するために使用するメモリの量を示します。
spark.executor.memory=3G
に設定します。
infaspark.driver.cluster.mode.extraJavaOptions
クラスタ内で実行されるSparkドライバ用の追加Javaオプションのリスト。Kerberos認証を使用するKafkaクラスタとの間の読み書きを行うストリーミングマッピングに必要です。
例えば、以下を設定します。
infaspark.driver.cluster.mode.extraJavaOptions= -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -Djavax.security.auth.useSubjectCredsOnly=true -Djava.security.krb5.conf=/<path to keytab file>/krb5.conf -Djava.security.auth.login.config=<path to jaas config>/kafka_client_jaas.config
特定のユーザーのプロパティを設定するには、次のコード行を含めます。
infaspark.driver.cluster.mode.extraJavaOptions = -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -XX:+UseG1GC -XX:MaxGCPauseMillis=500 -Djava.security.krb5.conf=/etc/krb5.conf
infaspark.executor.extraJavaOptions
Spark実行プログラム用の追加Javaオプションのリスト。Kerberos認証を使用するKafkaクラスタとの間の読み書きを行うストリーミングマッピングに必要です。
例えば、以下を設定します。
infaspark.executor.extraJavaOptions= -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -Djavax.security.auth.useSubjectCredsOnly=true -Djava.security.krb5.conf=/<path to krb5.conf file>/krb5.conf -Djava.security.auth.login.config=/<path to jAAS config>/kafka_client_jaas.config
特定のユーザーのプロパティを設定するには、次のコード行を含めます。
infaspark.executor.extraJavaOptions = -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -XX:+UseG1GC -XX:MaxGCPauseMillis=500 -Djava.security.krb5.conf=/etc/krb5.conf
infaspark.flatfile.writer.nullValue
Databricks Sparkエンジンがターゲットに書き込むときに、NULL値は空の文字列(「 」)に変換されます。例: 12, AB,"",23p09udj。
Databricks Sparkエンジンは文字列カラムに空の文字列を書き込むことができますが、空の文字列を非文字列カラムに書き込もうとすると、タイプの不一致でマッピングが失敗します。
Databricks Sparkエンジンで空の文字列をNULL値に戻してターゲットに書き込めるようにするには、Databricks Spark接続に次の詳細プロパティを設定します。
infaspark.flatfile.writer.nullValue=true
spark.hadoop.validateOutputSpecs
HBaseテーブルが存在するかどうかを検証します。Amazon EMRクラスタのHBaseターゲットに書き込みを行うストリーミングマッピングに必要です。値をfalseに設定します。
infaspark.json.parser.mode
破損したJSONレコードの処理方法をパーサーに指定します。次のいずれかのモードに値を設定できます。
  • DROPMALFORMED。パーサーは破損したすべてのレコードを無視します。デフォルトのモードです。
  • PERMISSIVE。パーサーは、破損したレコードの標準ではないフィールドをNULLとして受け取ります。
  • FAILFAST。パーサーが破損したレコードを検出し、Sparkアプリケーションがダウンした場合、パーサーは例外を生成します。
infaspark.json.parser.multiLine
JSONファイルの複数行のレコードをパーサーが読み取れるかどうかを指定します。この値は、trueまたはfalseに設定できます。デフォルトはfalseです。Sparkバージョン2.2.x以上を使用する非ネイティブのディストリビューションにのみ適用します。
infaspark.pythontx.exec
Big Data Management用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。Hadoopクラスタの作業ノード上のPython実行可能バイナリの場所。
例えば、以下を設定します。
infaspark.pythontx.exec=/usr/bin/python3.4
データ統合サービスマシン上でPythonのインストールを使用する場合、データ統合サービスマシン上のInformaticaインストールディレクトリのPython実行可能バイナリに値を設定します。
例えば、以下を設定します。
infaspark.pythontx.exec=INFA_HOME/services/shared/spark/python/lib/python3.4
infaspark.pythontx.executorEnv.PYTHONHOME
Big Data ManagementとBig Data Streaming用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。Hadoopクラスタの作業ノード上のPythonインストールディレクトリの場所。
例えば、以下を設定します。
infaspark.pythontx.executorEnv.PYTHONHOME=/usr
データ統合サービスマシン上でPythonのインストールを使用する場合、データ統合サービスマシン上のPythonインストールディレクトリの場所を使用します。
例えば、以下を設定します。
infaspark.pythontx.executorEnv.PYTHONHOME= INFA_HOME/services/shared/spark/python/
infaspark.pythontx.executorEnv.LD_PRELOAD
Big Data Streaming用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。データ統合サービスマシン上にある、Pythonインストールフォルダ内のPython共有ライブラリの場所。
例えば、以下を設定します。
infaspark.pythontx.executorEnv.LD_PRELOAD= INFA_HOME/services/shared/spark/python/lib/libpython3.6m.so
infaspark.pythontx.submit.lib.JEP_HOME
Big Data Streaming用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。データ統合サービスマシン上にある、Pythonインストールフォルダ内のJepパッケージの場所。
例えば、以下を設定します。
infaspark.pythontx.submit.lib.JEP_HOME= INFA_HOME/services/shared/spark/python/lib/python3.6/site-packages/jep/
spark.shuffle.encryption.enabled
認証が有効になっている場合に、暗号化された通信を有効にします。Sparkの暗号化に必要です。
TRUEに設定します。
例:
spark.shuffle.encryption.enabled=TRUE
spark.scheduler.maxRegisteredResourcesWaitingTime
タスクをスケジュール設定する前に、リソースの登録を待機する時間(ミリ秒)。デフォルトは30000です。Sparkジョブの実行を開始する前に、この値を小さくして遅延を減らします。Sparkエンジンでのマッピングのパフォーマンスを向上させるために必要です。
15000に設定します。
例:
spark.scheduler.maxRegisteredResourcesWaitingTime=15000
spark.scheduler.minRegisteredResourcesRatio
タスクのスケジュール設定が開始される前に取得される登録済みリソースの最小比率。デフォルトは0.8です。Sparkジョブの実行を開始する前に、この値を小さくして遅延を減らします。Sparkエンジンでのマッピングのパフォーマンスを向上させるために必要です。
0.5に設定します。
例:
spark.scheduler.minRegisteredResourcesRatio=0.5