Data Ingestion and Replication
- Data Ingestion and Replication
- 所有产品
プロパティ
| 説明
|
---|---|
出力形式
| 出力ファイルの形式を選択します。次のオプションがあります。
デフォルトの値は [CSV] です。
CSV形式の出力ファイルでは、各フィールドの区切り文字として二重引用符("")が使用されます。
|
CSVファイルへのヘッダーの追加
| [CSV] が出力形式として選択されている場合は、このチェックボックスをオンにして、ソース列名を含むヘッダーを出力CSVファイルに追加します。
|
Parquet圧縮タイプ
| [PARQUET] 出力形式が選択されている場合、Parquetでサポートされている圧縮タイプを選択できます。次のオプションがあります。
デフォルト値は [なし] 、これは圧縮が使用されないことを意味します。
|
Avro形式
| 出力形式として [AVRO] を選択した場合、ソーステーブルごとに作成されるAvroスキーマの形式を選択します。次のオプションがあります。
デフォルト値は [Avro-Flat] です。
|
Avroシリアル化形式
| 出力形式として [AVRO] が選択されている場合は、Avro出力ファイルのシリアル化形式を選択します。次のオプションがあります。
デフォルト値は [Binary] です。
|
Avroスキーマディレクトリ
| 出力形式として [AVRO] が選択されている場合は、アプリケーション取り込みとレプリケーション が各ソーステーブルのAvroスキーマ定義を格納しているローカルディレクトリを指定します。スキーマ定義ファイルには、次の命名パターンがあります。
このディレクトリが指定されていない場合、Avroスキーマ定義ファイルは作成されません。
|
ファイル圧縮タイプ
| CSVまたはAVRO出力形式の出力ファイルのファイル圧縮タイプを選択します。次のオプションがあります。
デフォルト値は [なし] 、これは圧縮が使用されないことを意味します。
|
Avro圧縮タイプ
| [AVRO] が出力形式としてが選択されている場合は、Avro圧縮タイプを選択します。次のオプションがあります。
デフォルト値は [なし] 、これは圧縮が使用されないことを意味します。
|
Deflate圧縮レベル
| [Deflate] が[Avro圧縮タイプ] フィールドで選択されている場合、圧縮レベルとして0~9を指定します。デフォルトは0です。
|
ディレクトリタグの追加
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、Hiveパーティショニングの命名規則と互換性を持たせるために適用サイクルディレクトリの名前に「dt=」プレフィックスを追加するには、このチェックボックスをオンにします。このチェックボックスはデフォルトでオフになっています。
|
タスクターゲットディレクトリ
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、出力データファイル、スキーマファイル、およびCDCサイクルのコンテンツと完了ファイルを保持する他のディレクトリのルートディレクトリ。このフィールドを使用して、タスクのカスタムルートディレクトリを指定できます。
このフィールドは、次のディレクトリフィールドのいずれかのパターンで{TaskTargetDirectory}プレースホルダが指定されている場合は必須です。
|
データディレクトリ
| 初期ロードタスクの場合、 アプリケーション取り込みとレプリケーション が出力データファイルとオプションでスキーマを保存するディレクトリのディレクトリ構造を定義します。ディレクトリパターンを定義するには、次のタイプのエントリを使用できます。
プレースホルダの値の大文字と小文字は区別されません。
例:
デフォルトのディレクトリパターンは {TableName)_{Timestamp} です。
増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合は 、cdc-dataデータファイルを含むサブディレクトリへのカスタムパスを定義します。ディレクトリパターンを定義する場合は、次のタイプのエントリを使用します。
デフォルトのディレクトリパターンは {TaskTargetDirectory}/data/{TableName}/data です。
Amazon S3およびMicrosoft Azure Data Lake Storage Gen2ターゲットでは、 [親としての接続ディレクトリ] が選択されている場合、アプリケーション取り込みとレプリケーション は、ターゲット接続プロパティで指定されたディレクトリをデータディレクトリパスのルートとして使用します。Google Cloud Storageターゲットの場合、アプリケーション取り込みとレプリケーション は取り込みタスクのターゲットプロパティで指定したバケット 名を使用します。Microsoft Fabric OneLakeターゲットの場合、親ディレクトリは、Microsoft Fabric OneLake接続プロパティの[レイクハウスのパス] フィールドで指定されたパスです。 |
スキーマディレクトリ
| デフォルトディレクトリ以外のディレクトリにスキーマファイルを保存する場合は、スキーマファイルを保存するカスタムディレクトリを指定できます。初期ロードの場合、便利になるように、以前に使用した値を使用できる場合はそれがドロップダウンリストに表示されます。このフィールドはオプションです。
初期ロードの場合、デフォルトでは、スキーマはデータディレクトリに保存されます。増分ロード、および初期ロードと増分ロードの組み合わせの場合、スキーマファイルのデフォルトディレクトリは {TaskTargetDirectory}/data/{TableName}/schema です。
[データディレクトリ] フィールドと同じプレースホルダを使用できます。プレースホルダは必ず中かっこ{ }で囲んでください。
toUpperまたはtoLower関数を含める場合は、 {toLower(SchemaName)} のように、プレースホルダ名を丸かっこで囲み、関数とプレースホルダの両方を中かっこで囲みます。
スキーマは、CSV形式で出力データファイルにのみ書き込まれます。ParquetおよびAvro形式のデータファイルには、独自の埋め込みスキーマが含まれています。
|
サイクル完了ディレクトリ
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、サイクル完了ファイルを含むディレクトリへのパス。デフォルトは {TaskTargetDirectory}/cycle/completed です。
|
サイクルコンテンツディレクトリ
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、サイクルコンテンツファイルを含むディレクトリへのパス。デフォルトは {TaskTargetDirectory}/cycle/contents です。
|
データディレクトリにサイクルのパーティション化を使用する
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、各データディレクトリの下に、CDCサイクルごとにタイムスタンプサブディレクトリが作成されます。
このオプションが選択されていない場合、別のディレクトリ構造を定義しない限り、個々のデータファイルがタイムスタンプなしで同じディレクトリに書き込まれます。
|
サマリディレクトリにサイクルのパーティション化を使用する
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合は、サマリコンテンツサブディレクトリおよび完了サブディレクトリの下にCDCサイクルごとにタイムスタンプサブディレクトリが作成されます。
|
コンテンツ内の個々のファイルを一覧表示する
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合は、コンテンツサブディレクトリの下に個々のデータファイルが一覧表示されます。
[サマリディレクトリにサイクルのパーティション化を使用する] がオフの場合は、このオプションがデフォルトでオンになります。タイムスタンプや日付などのプレースホルダを使用してカスタムサブディレクトリを設定できる場合を除き、コンテンツサブディレクトリ内の個々のファイルがすべて一覧表示されます。
[データディレクトリにサイクルのパーティション化を使用する] が選択されている場合でも、必要に応じてこのチェックボックスを選択して、個々のファイルを一覧表示し、CDCサイクルごとにグループ化することができます。
|