目次

Search

  1. はじめに
  2. 一括取り込みデータベース

一括取り込みデータベース

一括取り込みデータベース

Databricks Deltaターゲットのプロパティ

Databricks Deltaターゲットのプロパティ

Databricks Deltaターゲットのある
データベース統合
タスクを定義する場合、タスクウィザードの
[ターゲット]
タブでターゲットのいくつかのプロパティを入力する必要があります。
次の表は、
[ターゲット]
に表示されるDatabricks Deltaターゲットのプロパティについて説明しています。
プロパティ
説明
ターゲット作成
利用可能なただ1つのオプションは、
[ターゲットテーブルを作成する]
であり、これによりソーステーブルをベースにしてターゲットテーブルを生成します。
ターゲットテーブルが作成された後、一括取り込みデータベースは、後続のジョブ実行でターゲットテーブルをインテリジェントに処理します。一括取り込みデータベースは、特定の状況に応じて、ターゲットテーブルを切り詰めたり再作成したりする場合があります。
スキーマ
一括取り込みデータベース
がターゲットテーブルを作成するターゲットスキーマを選択します。
適用モード
増分ロードジョブ、および初期ロードと増分ロードの組み合わせジョブの場合に、挿入、更新、削除といったソースDMLの変更がターゲットにどのように適用されるかを示します。次のオプションがあります。
  • 標準
    。1回の適用サイクルの間の変更を累積し、それをターゲットに適用する前に、より少ないSQL文になるようにそれらをインテリジェントにマージします。例えば、ソース行で更新とそれに続く削除が発生した場合、ターゲットに行は適用されません。同じカラムまたはフィールドで複数の更新が発生した場合、最後の更新のみがターゲットに適用されます。異なるカラムまたはフィールドで複数の更新が発生した場合、更新はターゲットに適用される前に1つの更新レコードにマージされます。
  • 論理削除
    。ソース削除操作を論理削除としてターゲットに適用します。論理削除では、削除された行をデータベースから実際には削除せずに、削除済みとしてマークします。例えば、ソースで削除を行うと、ターゲットの変更レコードのINFA_OPERATION_TYPEカラムに「D」が表示されます。
    処理を完了するために論理的に削除されたデータが必要となる、長期にわたるビジネスプロセスがある場合、誤って削除したデータを復元する必要がある場合、または削除された値を監査目的で追跡する必要がある場合は、論理削除の使用を検討してください。
    [論理削除]
    モードを使用する場合は、ソーステーブルのプライマリキーに対して更新を実行しないでください。そうしないと、ターゲットでデータ破損が発生する可能性があります。
デフォルト値は
[標準]
です。
タスクウィザードの
[ソース]
ページで手法として
[クエリベースのCDC]
を選択した場合、このフィールドは表示されません。
データディレクトリまたはタスクターゲットディレクトリ
一括取り込みデータベース
がタスクに関連付けられたジョブの出力ファイルを格納するサブディレクトリを指定します。このフィールドは、初期ロードジョブの場合は
[データディレクトリ]
、増分ロードジョブ、または初期ロードと増分ロードの組み合わせジョブの場合は
[タスクターゲットディレクトリ]
と呼ばれます。
次の表は、
[詳細]
に表示されるターゲットの詳細プロパティについて説明しています。
[操作の追加...]
メタデータフィールドと
[メタデータカラムのプレフィックス]
フィールドは、
[適用モード]
[論理削除]
に設定した場合にのみ表示されます。
プロパティ
説明
操作タイプの追加
ジョブがターゲットにレプリケートする出力にソースSQL操作タイプを含むメタデータカラムを追加します。デフォルトでは、このカラムはINFA_OPERATION_TYPEという名前です。
このチェックボックスは、
[適用モード]
オプションが
[論理削除]
に設定されている場合にのみ表示されます。
論理削除モードでは、ジョブは削除操作の場合は「D」を書き込み、INFA_OPERATION_TYPEカラムへの挿入と更新の場合はNULLを書き込みます。操作タイプがNULLの場合、他の[操作の追加...]メタデータカラムもNULLです。操作タイプが「D」の場合にのみ、他のメタデータカラムにNULL以外の値が含まれます。
デフォルトでは、このチェックボックスは選択されています。選択を解除することはできません。
操作時間の追加
ジョブがターゲットにプロパゲートする出力にソースSQL操作タイムスタンプを記録するメタデータカラムを追加するには、このチェックボックスをオンにします。
デフォルトでは、このチェックボックスは選択されていません。
操作所有者の追加
ジョブがターゲットにプロパゲートする出力にソースSQL操作の所有者を記録するメタデータカラムを追加するには、このチェックボックスを選択します。
デフォルトでは、このチェックボックスは選択されていません。
このプロパティは、MongoDBソースまたはPostgreSQLソースを持つジョブでは使用できません。
操作トランザクションIDの追加
ジョブがSQL操作のターゲットにプロパゲートする出力にソーストランザクションIDを含むメタデータカラムを追加するには、このチェックボックスを選択します。
デフォルトでは、このチェックボックスは選択されていません。
メタデータカラムのプレフィックス
追加されたメタデータカラムの名前にプレフィックスを追加し、それらを簡単に識別して、既存のカラムの名前との競合を防ぐことができるようにします。
デフォルト値はINFA_です。
アンマネージドテーブルの作成
タスクでDatabricks Deltaターゲットテーブルをアンマネージドテーブルとして作成する場合は、このチェックボックスを選択します。タスクをデプロイした後は、このフィールドを編集してマネージドテーブルに切り替えることはできません。
デフォルトでは、このオプションはオフになっており、マネージドテーブルが作成されます。
Databricks Deltaのマネージドテーブルとアンマネージドテーブルの詳細については、Databricks Deltaのドキュメントを参照してください。
非管理対象テーブルの親ディレクトリ
Databricks Deltaアンマネージドテーブルを作成する場合は、キャプチャされたDMLレコードの処理時にターゲットテーブルごとに生成されるParquetファイルを保持するために、Amazon S3またはMicrosoft Azure Data Lake Storageに存在する親ディレクトリを指定する必要があります。