目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. データプレビュー
  10. クラスタワークフロー
  11. プロファイル
  12. 監視
  13. 階層データ処理
  14. 階層データ処理設定
  15. スキーマが変更された階層データの処理
  16. インテリジェント構造モデル
  17. ブロックチェーン
  18. ステートフルコンピューティング
  19. 付録 A: 接続リファレンス
  20. 付録 B: データ型リファレンス
  21. 付録 C: 関数リファレンス

ユーザーガイド

ユーザーガイド

Databricksソースのルールとガイドライン

Databricksソースのルールとガイドライン

ファイルソース

ファイルソースについては、次の一般的なルールおよびガイドラインを考慮します。
  • フラットファイルソースは、次のストレージリソースのいずれかに存在する必要があります。
    • Azureプラットフォームの場合: Microsoft Azure Blob Storage、Microsoft Azure Data Lake Store(ADLS)Gen1またはGen2
    • AWSプラットフォームの場合: S3
  • 行区切り文字は/nにする必要があります。
  • ファイルを固定長にすることはできません。
  • 複数のカラム区切り文字はサポートされません。
  • 複数行のデータを読み取るには、テキスト修飾子を一重引用符または二重引用符に設定し、データをその引用符付きの修飾子で囲みます。
  • 空の値のみがNULL値として扱われます。
  • 物理データオブジェクトソースへのパスで、ファイルやディレクトリの名前に空白が含まれる場合、出力のソースカラムにレンダリングされるパスには空白の代わりに
    %20
    が表示されます。例えば、
    C:\\testdirectory\flat file.txt
    C:\\testdirectory\flat%20file.txt
    とレンダリングされます。これは、フラットファイルと複合ファイルで発生します。

Delta Lakeソース

Delta Lakeソースの使用については、次のガイドラインを考慮します。
  • Delta LakeテーブルにアクセスするマッピングではDatabricksランタイムエンジンを使用する必要があります。JDBC接続を使用するネイティブ環境でDelta Lakeマッピングを実行すると、マッピングは成功しますが、ターゲットにデータが書き込まれません。

NULL処理

NULL処理については、次のルールおよびガイドラインを考慮します。
NULLに変換される予期しない値
Databricks Sparkエンジンは、フィールドに予期しない値が含まれている場合、次のシナリオに基づいて、同じレコードのすべてのフィールドにNULL値を生成します。
  • stringデータをnumericカラムに渡すなど、型不一致が発生した。
  • bigintデータ型、intデータ型などで、データが範囲を超えている。
NULL行をフィルタするには、フィルタトランスフォーメーションの使用を考慮します。
NULLに変換される日付/時刻値
Databricks Sparkエンジンで日付/時刻値を読み取る場合の形式は、YYYY-MM-DD HH24:MM:SS.USです。ソースから読み取った日付の形式がこの形式と一致しない場合、Databricks Sparkエンジンは日付値をNULLに変換します。

doubleとdecimalの変換

Databricks Sparkエンジンは、AzureまたはAWSソースから読み取ったときに、doubleとdecimalデータ型を科学的表記に変換します。データをdoubleまたはdecimalに変換してターゲットに書き込むときに、15を超える精度を削除し、15桁の精度を維持します。