Mass Ingestion
- Mass Ingestion
- 所有产品
プロパティ
| 説明
|
---|---|
出力形式
| 出力ファイルの形式を選択します。次のオプションがあります。
デフォルトの値は [CSV] です。
CSV形式の出力ファイルでは、各フィールドの区切り文字として二重引用符("")が使用されます。
|
CSVファイルへのヘッダーの追加
| [CSV] が出力形式として選択されている場合は、このチェックボックスをオンにして、ソース列名を含むヘッダーを出力CSVファイルに追加します。
|
Avro形式
| 出力形式として [AVRO] を選択した場合、ソーステーブルごとに作成されるAvroスキーマの形式を選択します。次のオプションがあります。
デフォルト値は [Avro-Flat] です。
|
Avroシリアル化形式
| 出力形式として [AVRO] が選択されている場合は、Avro出力ファイルのシリアル化形式を選択します。次のオプションがあります。
デフォルト値は [Binary] です。
|
Avroスキーマディレクトリ
| 出力形式として [AVRO] が選択されている場合は、一括取り込みデータベース が各ソーステーブルのAvroスキーマ定義を格納しているローカルディレクトリを指定します。スキーマ定義ファイルには、次の命名パターンがあります。
このディレクトリが指定されていない場合、Avroスキーマ定義ファイルは作成されません。
|
ファイル圧縮タイプ
| CSVまたはAVRO出力形式の出力ファイルのファイル圧縮タイプを選択します。次のオプションがあります。
デフォルト値は [なし] 、これは圧縮が使用されないことを意味します。
|
Avro圧縮タイプ
| [AVRO] が出力形式としてが選択されている場合は、Avro圧縮タイプを選択します。次のオプションがあります。
デフォルト値は [なし] 、これは圧縮が使用されないことを意味します。
|
Parquet圧縮タイプ
| [PARQUET] 出力形式が選択されている場合、Parquetでサポートされている圧縮タイプを選択できます。次のオプションがあります。
デフォルト値は [なし] 、これは圧縮が使用されないことを意味します。
|
Deflate圧縮レベル
| [Deflate] が[Avro圧縮タイプ] フィールドで選択されている場合、圧縮レベルとして0~9を指定します。デフォルトは0です。
|
ディレクトリタグの追加
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、Hiveパーティショニングの命名規則と互換性を持たせるために適用サイクルディレクトリの名前に「dt=」プレフィックスを追加するには、このチェックボックスをオンにします。このチェックボックスはデフォルトでオフになっています。
|
バケット
| Google Cloud Storageに読み込むデータオブジェクトへのアクセスを保存、整理、制御する既存のバケットコンテナの名前を指定します。
|
タスクターゲットディレクトリ
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、出力データファイル、スキーマファイル、およびCDCサイクルのコンテンツと完了ファイルを保持する他のディレクトリのルートディレクトリ。このフィールドを使用して、タスクのカスタムルートディレクトリを指定できます。 [親としての接続ディレクトリ] オプションを有効にしている場合は、必要に応じて、接続プロパティで指定された親ディレクトリで使用するタスクターゲットディレクトリを指定できます。
このフィールドは、次のディレクトリフィールドのいずれかのパターンで{TaskTargetDirectory}プレースホルダが指定されている場合は必須です。
|
データディレクトリ
| 初期ロードタスクの場合、一括取り込みデータベースが出力データファイルとオプションでスキーマを保存するディレクトリのディレクトリ構造を定義します。ディレクトリパターンを定義するには、次のタイプのエントリを使用できます。
プレースホルダの値の大文字と小文字は区別されません。
例:
デフォルトのディレクトリパターンは {TableName)_{Timestamp} です。
増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合は 、cdc-dataデータファイルを含むサブディレクトリへのカスタムパスを定義します。ディレクトリパターンを定義する場合は、次のタイプのエントリを使用します。
デフォルトのディレクトリパターンは {TaskTargetDirectory}/data/{TableName}/data です。
Amazon S3、フラットファイル、Microsoft Azure Data Lake Storage Gen2、およびOracle Cloud Object Storeターゲットでは、 [親としての接続ディレクトリ] が選択されている場合、一括取り込みデータベースは、ターゲット接続プロパティで指定されたディレクトリをデータディレクトリパスのルートとして使用します。Google Cloud Storageターゲットの場合、一括取り込みデータベースは取り込みタスクのターゲットプロパティで指定したバケット 名を使用します。
|
スキーマディレクトリ
| デフォルトディレクトリ以外のディレクトリにスキーマファイルを保存する場合は、スキーマファイルを保存するカスタムディレクトリを指定できます。初期ロードの場合、便利になるように、以前に使用した値を使用できる場合はそれがドロップダウンリストに表示されます。このフィールドはオプションです。
初期ロードの場合、デフォルトでは、スキーマはデータディレクトリに保存されます。増分ロード、および初期ロードと増分ロードの組み合わせの場合、スキーマファイルのデフォルトディレクトリは {TaskTargetDirectory}/data/{TableName}/schema です。
[データディレクトリ] フィールドと同じプレースホルダを使用できます。プレースホルダは必ず中かっこ{ }で囲んでください。
toUpperまたはtoLower関数を含める場合は、 {toLower(SchemaName)} のように、プレースホルダ名を丸かっこで囲み、関数とプレースホルダの両方を中かっこで囲みます。
スキーマは、CSV形式で出力データファイルにのみ書き込まれます。ParquetおよびAvro形式のデータファイルには、独自の埋め込みスキーマが含まれています。
|
サイクル完了ディレクトリ
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、サイクル完了ファイルを含むディレクトリへのパス。デフォルトは {TaskTargetDirectory}/cycle/completed です。
|
サイクルコンテンツディレクトリ
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、サイクルコンテンツファイルを含むディレクトリへのパス。デフォルトは {TaskTargetDirectory}/cycle/contents です。
|
データディレクトリにサイクルのパーティション化を使用する
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、各データディレクトリの下に、CDCサイクルごとにタイムスタンプサブディレクトリが作成されます。
このオプションが選択されていない場合、別のディレクトリ構造を定義しない限り、個々のデータファイルがタイムスタンプなしで同じディレクトリに書き込まれます。
|
サマリディレクトリにサイクルのパーティション化を使用する
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合は、サマリコンテンツサブディレクトリおよび完了サブディレクトリの下にCDCサイクルごとにタイムスタンプサブディレクトリが作成されます。
|
コンテンツ内の個々のファイルを一覧表示する
| 増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合は、コンテンツサブディレクトリの下に個々のデータファイルが一覧表示されます。
[サマリディレクトリにサイクルのパーティション化を使用する] がオフの場合は、このオプションがデフォルトでオンになります。タイムスタンプや日付などのプレースホルダを使用してカスタムサブディレクトリを設定できる場合を除き、コンテンツサブディレクトリ内の個々のファイルがすべて一覧表示されます。
[データディレクトリにサイクルのパーティション化を使用する] が選択されている場合でも、必要に応じてこのチェックボックスを選択して、個々のファイルを一覧表示し、CDCサイクルごとにグループ化することができます。
|
フィールド
| 説明
|
---|---|
操作タイプの追加
| ジョブがターゲットにプロパゲートする出力にソースSQL操作タイプを記録するメタデータカラムを追加するには、このチェックボックスを選択します。
増分ロードの場合、ジョブは、挿入を表す「I」、更新を表す「U」、または削除を表す「D」を書き込みます。初期ロードの場合、ジョブは常に、挿入を表す「I」を書き込みます。
デフォルトでは、このチェック ボックスは、増分ロードジョブ、初期および増分ロードジョブの場合はオンになっており、初期ロードジョブの場合はオフになっています。
|
操作時間の追加
| ジョブがターゲットにプロパゲートする出力にソースSQL操作タイムスタンプを記録するメタデータカラムを追加するには、このチェックボックスをオンにします。
初期ロードの場合、ジョブは常に現在の日付と時刻を書き込みます。
デフォルトでは、このチェックボックスは選択されていません。
|
操作所有者の追加
| ジョブがターゲットにプロパゲートする出力にソースSQL操作の所有者を記録するメタデータカラムを追加するには、このチェックボックスを選択します。
初期ロードの場合、ジョブは常に所有者として「INFA」を書き込みます。
デフォルトでは、このチェックボックスは選択されていません。
このプロパティは、MongoDBソースまたはPostgreSQLソースを持つジョブでは使用できません。
|
操作トランザクションIDの追加
| ジョブがSQL操作のターゲットにプロパゲートする出力にソーストランザクションIDを含むメタデータカラムを追加するには、このチェックボックスを選択します。
初期ロードの場合、ジョブは常にIDとして「1」を書き込みます。
デフォルトでは、このチェックボックスは選択されていません。
|
前のイメージを追加
| ジョブがターゲットに書き込む出力にUNDOデータを含めるには、このチェックボックスを選択します。
初期ロードの場合、ジョブはnullを書き込みます。
デフォルトでは、このチェックボックスは選択されていません。
|