ユーザーガイド

10.2.2 Service Pack 1
- 10.5.7
- 10.5.1
- 10.4.0
- 10.2.2 HotFix 1
- 10.2.2

前へ次へ

Sparkの詳細プロパティ

Sparkの詳細プロパティは、Sparkエンジンに固有の詳細プロパティまたはカスタムプロパティのリストです。各プロパティには名前および値が含まれます。詳細プロパティを追加または編集できます。各プロパティには名前および値が含まれます。詳細プロパティを追加または編集できます。

［Spark設定］セクションの

［詳細プロパティ］

で、次のプロパティを設定します。

テキストボックスのプロパティを編集するには、次の形式で&:を使用して名前と値のペアを区別します。

<name1>=<value1>[&:<name2>=<value2>…&:<nameN>=<valueN>]

spark.authenticate: HadoopでのSparkサービスの認証を有効にします。Sparkの暗号化に必要です。
TRUEに設定します。
例:
spark.authenticate=TRUE

spark.authenticate.enableSaslEncryption: SASL認証が有効になっている場合に、暗号化された通信を有効にします。Sparkの暗号化でSASL認証が使用される場合に必要です。
TRUEに設定します。
例:
spark.authenticate.enableSaslEncryption=TRUE

spark.executor.cores: 各実行プログラムプロセスがSparkエンジンでタスクレットを実行するために使用するコアの数を示します。
spark.executor.cores=1
に設定します。

spark.executor.instances: 各実行プログラムプロセスがSparkエンジンでタスクレットを実行するために使用するインスタンスの数を示します。
spark.executor.instances=1
に設定します。

spark.executor.memory: 各実行プログラムプロセスがSparkエンジンでタスクレットを実行するために使用するメモリの量を示します。
spark.executor.memory=3G
に設定します。

infaspark.driver.cluster.mode.extraJavaOptions: クラスタ内で実行されるSparkドライバ用の追加Javaオプションのリスト。Kerberos認証を使用するKafkaクラスタとの間の読み書きを行うストリーミングマッピングに必要です。
例えば、以下を設定します。
infaspark.driver.cluster.mode.extraJavaOptions= -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -Djavax.security.auth.useSubjectCredsOnly=true -Djava.security.krb5.conf=/<path to keytab file>/krb5.conf -Djava.security.auth.login.config=<path to jaas config>/kafka_client_jaas.config
特定のユーザーのプロパティを設定するには、次のコード行を含めます。
infaspark.driver.cluster.mode.extraJavaOptions = -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -XX:+UseG1GC -XX:MaxGCPauseMillis=500 -Djava.security.krb5.conf=/etc/krb5.conf

infaspark.executor.extraJavaOptions: Spark実行プログラム用の追加Javaオプションのリスト。Kerberos認証を使用するKafkaクラスタとの間の読み書きを行うストリーミングマッピングに必要です。
例えば、以下を設定します。
infaspark.executor.extraJavaOptions= -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -Djavax.security.auth.useSubjectCredsOnly=true -Djava.security.krb5.conf=/<path to krb5.conf file>/krb5.conf -Djava.security.auth.login.config=/<path to jAAS config>/kafka_client_jaas.config
特定のユーザーのプロパティを設定するには、次のコード行を含めます。
infaspark.executor.extraJavaOptions = -Djava.security.egd=file:/dev/./urandom -XX:MaxMetaspaceSize=256M -XX:+UseG1GC -XX:MaxGCPauseMillis=500 -Djava.security.krb5.conf=/etc/krb5.conf

infaspark.flatfile.writer.nullValue: Databricks Sparkエンジンがターゲットに書き込むときに、NULL値は空の文字列（「」）に変換されます。例: 12, AB,"",23p09udj。; Databricks Sparkエンジンは文字列カラムに空の文字列を書き込むことができますが、空の文字列を非文字列カラムに書き込もうとすると、タイプの不一致でマッピングが失敗します。
Databricks Sparkエンジンで空の文字列をNULL値に戻してターゲットに書き込めるようにするには、Databricks Spark接続に次の詳細プロパティを設定します。
infaspark.flatfile.writer.nullValue=true
spark.hadoop.validateOutputSpecs: HBaseテーブルが存在するかどうかを検証します。Amazon EMRクラスタのHBaseターゲットに書き込みを行うストリーミングマッピングに必要です。値をfalseに設定します。

infaspark.json.parser.mode: 破損したJSONレコードの処理方法をパーサーに指定します。次のいずれかのモードに値を設定できます。
DROPMALFORMED。パーサーは破損したすべてのレコードを無視します。デフォルトのモードです。
PERMISSIVE。パーサーは、破損したレコードの標準ではないフィールドをNULLとして受け取ります。
FAILFAST。パーサーが破損したレコードを検出し、Sparkアプリケーションがダウンした場合、パーサーは例外を生成します。

infaspark.json.parser.multiLine: JSONファイルの複数行のレコードをパーサーが読み取れるかどうかを指定します。この値は、trueまたはfalseに設定できます。デフォルトはfalseです。Sparkバージョン2.2.x以上を使用する非ネイティブのディストリビューションにのみ適用します。

infaspark.pythontx.exec: Big Data Management用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。Hadoopクラスタの作業ノード上のPython実行可能バイナリの場所。
例えば、以下を設定します。
infaspark.pythontx.exec=/usr/bin/python3.4
データ統合サービスマシン上でPythonのインストールを使用する場合、データ統合サービスマシン上のInformaticaインストールディレクトリのPython実行可能バイナリに値を設定します。
例えば、以下を設定します。
infaspark.pythontx.exec=INFA_HOME/services/shared/spark/python/lib/python3.4

infaspark.pythontx.executorEnv.PYTHONHOME: Big Data ManagementとBig Data Streaming用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。Hadoopクラスタの作業ノード上のPythonインストールディレクトリの場所。
例えば、以下を設定します。
infaspark.pythontx.executorEnv.PYTHONHOME=/usr
データ統合サービスマシン上でPythonのインストールを使用する場合、データ統合サービスマシン上のPythonインストールディレクトリの場所を使用します。
例えば、以下を設定します。
infaspark.pythontx.executorEnv.PYTHONHOME= INFA_HOME/services/shared/spark/python/

infaspark.pythontx.executorEnv.LD_PRELOAD: Big Data Streaming用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。データ統合サービスマシン上にある、Pythonインストールフォルダ内のPython共有ライブラリの場所。
例えば、以下を設定します。
infaspark.pythontx.executorEnv.LD_PRELOAD= INFA_HOME/services/shared/spark/python/lib/libpython3.6m.so

infaspark.pythontx.submit.lib.JEP_HOME: Big Data Streaming用のSparkエンジンでPythonトランスフォーメーションを実行するために必要です。データ統合サービスマシン上にある、Pythonインストールフォルダ内のJepパッケージの場所。
例えば、以下を設定します。
infaspark.pythontx.submit.lib.JEP_HOME= INFA_HOME/services/shared/spark/python/lib/python3.6/site-packages/jep/

spark.shuffle.encryption.enabled: 認証が有効になっている場合に、暗号化された通信を有効にします。Sparkの暗号化に必要です。
TRUEに設定します。
例:
spark.shuffle.encryption.enabled=TRUE

spark.scheduler.maxRegisteredResourcesWaitingTime: タスクをスケジュール設定する前に、リソースの登録を待機する時間（ミリ秒）。デフォルトは30000です。Sparkジョブの実行を開始する前に、この値を小さくして遅延を減らします。Sparkエンジンでのマッピングのパフォーマンスを向上させるために必要です。
15000に設定します。
例:
spark.scheduler.maxRegisteredResourcesWaitingTime=15000

spark.scheduler.minRegisteredResourcesRatio: タスクのスケジュール設定が開始される前に取得される登録済みリソースの最小比率。デフォルトは0.8です。Sparkジョブの実行を開始する前に、この値を小さくして遅延を減らします。Sparkエンジンでのマッピングのパフォーマンスを向上させるために必要です。
0.5に設定します。
例:
spark.scheduler.minRegisteredResourcesRatio=0.5

Hadoop接続プロパティの設定

ガイドをダウンロード

ページをウォッチ

フィードバックを送信

コミュニティ

Knowledge Base

Success Portal

Rename Saved Search

目次

ユーザーガイド

ユーザーガイド

Sparkの詳細プロパティ

Sparkの詳細プロパティ