目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. データプレビュー
  10. クラスタワークフロー
  11. プロファイル
  12. 監視
  13. 階層データ処理
  14. 階層データ処理設定
  15. スキーマが変更された階層データの処理
  16. インテリジェント構造モデル
  17. ブロックチェーン
  18. ステートフルコンピューティング
  19. 付録 A: 接続リファレンス
  20. 付録 B: データ型リファレンス
  21. 付録 C: 関数リファレンス

ユーザーガイド

ユーザーガイド

Databricks接続プロパティ

Databricks接続プロパティ

Databricks接続を使用して、Databricksクラスタでマッピングを実行します。
Hadoop接続は、クラスタ型の接続です。Hadoop接続は、管理者ツールまたはDeveloper toolで作成および管理できます。infacmdを使用してHadoop接続を作成できます。データ統合サービスとHadoopクラスタ間の通信を有効にするには、Hadoop接続のプロパティを設定します。
以下の表に、Hadoop接続の一般的な接続プロパティを示します。
プロパティ
説明
名前
接続の名前。この名前では、大文字と小文字が区別されず、ドメイン内で一意にする必要があります。このプロパティは、接続を作成した後に変更できます。名前は128文字以内で指定し、空白および次の特殊文字は使用できません。 ~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
データ統合サービスが接続の識別に使用する文字列。IDでは大文字と小文字が区別されません。255文字以下で、ドメイン内で一意である必要があります。このプロパティは、接続を作成してから変更できません。デフォルト値は接続名です。
説明
オプション。接続の説明。説明は、4,000文字を超えることはできません。
接続タイプ
[Databricks]を選択します。
クラスタ設定
Databricks環境に関連付けられているクラスタ設定の名前。
クラウドプロビジョニング設定を設定しない場合に必要です。
クラウドプロビジョニング設定
Databricksクラウドプラットフォームと関連付けられているクラウドプロビジョニング設定の名前。
クラスタ設定を設定しない場合に必要です。
一時領域ディレクトリ
Databricks Sparkエンジンがランタイムファイルをステージングするディレクトリ。
存在しないディレクトリを指定すると、データ統合サービスは実行時にディレクトリを作成します。
ディレクトリパスを指定しない場合、ランタイムステージングファイルは
/<クラスタのステージグディレクトリ>/DATABRICKS
に書き込まれます。
詳細プロパティ
Hadoop環境に固有な詳細プロパティのリスト。
データ統合サービスおよびDatabricks接続でDatabricks環境のランタイムプロパティを設定できます。下位レベルで値を設定することにより、上位レベルで構成されたプロパティをオーバーライドできます。例えば、データ統合サービスのカスタムプロパティでプロパティを設定する場合は、Databricks接続でオーバーライドできます。データ統合サービスは、次の優先順位に基づいてプロパティのオーバーライドを処理します。
  1. Databricks接続の詳細プロパティ
  2. データ統合サービスのカスタムプロパティ
Informaticaは、サードパーティが提供するドキュメント、Informaticaが提供するドキュメント、またはInformaticaのグローバルカスタマサポートに問い合わせることなく、これらのプロパティ値を変更することはお勧めしません。プロパティに関する知識がないまま値を変更すると、パフォーマンスの低下やその他の予期しない結果が発生する可能性があります。

詳細プロパティ

[Spark設定]セクションの
[詳細プロパティ]
で、次のプロパティを設定します。
infaspark.json.parser.mode
破損したJSONレコードの処理方法をパーサーに指定します。次のいずれかのモードに値を設定できます。
  • DROPMALFORMED。パーサーは破損したすべてのレコードを無視します。デフォルトのモードです。
  • PERMISSIVE。パーサーは、破損したレコードの標準ではないフィールドをNULLとして受け取ります。
  • FAILFAST。パーサーが破損したレコードを検出し、Sparkアプリケーションがダウンした場合、パーサーは例外を生成します。
infaspark.json.parser.multiLine
JSONファイルの複数行のレコードをパーサーが読み取れるかどうかを指定します。この値は、trueまたはfalseに設定できます。デフォルトはfalseです。Sparkバージョン2.2.x以上を使用する非ネイティブのディストリビューションにのみ適用します。
infaspark.flatfile.writer.nullValue
Databricks Sparkエンジンがターゲットに書き込むときに、NULL値は空の文字列(「 」)に変換されます。例: 12, AB,"",23p09udj。
Databricks Sparkエンジンは文字列カラムに空の文字列を書き込むことができますが、空の文字列を非文字列カラムに書き込もうとすると、タイプの不一致でマッピングが失敗します。
Databricks Sparkエンジンで空の文字列をNULL値に戻してターゲットに書き込めるようにするには、Databricks Spark接続でプロパティを設定します。
TRUEに設定します。
infaspark.pythontx.exec
Databricks SparkエンジンでPythonトランスフォーメーションを実行するために必要です。Databricksクラスタのワーカーノード上にあるPython実行可能バイナリの場所を設定します。
実行時にクラスタをプロビジョニングするときに、Databricksクラウドプロビジョニング構成でこのプロパティを設定します。それ以外の場合は、Databricks接続で設定します。
例えば、以下を設定します。
infaspark.pythontx.exec=/databricks/python3/bin/python3
infaspark.pythontx.executorEnv.PYTHONHOME
Databricks SparkエンジンでPythonトランスフォーメーションを実行するために必要です。Databricksクラスタのワーカーノード上にあるPythonインストールディレクトリの場所を設定します。
実行時にクラスタをプロビジョニングするときに、Databricksクラウドプロビジョニング構成でこのプロパティを設定します。それ以外の場合は、Databricks接続で設定します。
例えば、以下を設定します。
infaspark.pythontx.executorEnv.PYTHONHOME=/databricks/python3