目次

Search

  1. はじめに
  2. 一括取り込みデータベース

一括取り込みデータベース

一括取り込みデータベース

Oracle Cloud Object Storageターゲットのプロパティ

Oracle Cloud Object Storageターゲットのプロパティ

Oracle Cloud Object Storageターゲットのある
データベース統合
タスクを定義する場合、タスクウィザードの
[ターゲット]
タブでターゲットのプロパティをいくつか入力する必要があります。
[ターゲット]
では、次のOracle Cloud Object Storageターゲットのプロパティを入力できます。
プロパティ
説明
出力形式
出力ファイルの形式を選択します。次のオプションがあります。
  • CSV
  • AVRO
  • PARQUET
デフォルトの値は
[CSV]
です。
CSV形式の出力ファイルでは、各フィールドの区切り文字として二重引用符("")が使用されます。
CSVファイルへのヘッダーの追加
[CSV]
が出力形式として選択されている場合は、このチェックボックスをオンにして、ソース列名を含むヘッダーを出力CSVファイルに追加します。
Avro形式
出力形式として
[AVRO]
を選択した場合、ソーステーブルごとに作成されるAvroスキーマの形式を選択します。次のオプションがあります。
  • Avro-Flat
    。すべてのAvroフィールドを1つのレコードに一覧表示する場合に、このAvroスキーマ形式を使用します。
  • Avro-Generic
    。ソーステーブルのすべてのカラムをAvroフィールドの単一の配列に一覧表示する場合に、このAvroスキーマ形式を使用します。
  • Avro-Nested
    。各タイプの情報を個別のレコードに編成する場合に、このAvroスキーマ形式を使用します。
デフォルト値は
[Avro-Flat]
です。
Avroシリアル化形式
出力形式として
[AVRO]
が選択されている場合は、Avro出力ファイルのシリアル化形式を選択します。次のオプションがあります。
  • なし
  • Binary
  • JSON
デフォルト値は
[Binary]
です。
Avroスキーマディレクトリ
出力形式として
[AVRO]
が選択されている場合は、
一括取り込みデータベース
が各ソーステーブルのAvroスキーマ定義を格納しているローカルディレクトリを指定します。スキーマ定義ファイルには、次の命名パターンがあります。
schemaname
_
tablename
.txt
このディレクトリが指定されていない場合、Avroスキーマ定義ファイルは作成されません。
ファイル圧縮タイプ
CSVまたはAVRO出力形式の出力ファイルのファイル圧縮タイプを選択します。次のオプションがあります。
  • なし
  • Deflate
  • Gzip
  • Snappy
デフォルト値は
[なし]
、これは圧縮が使用されないことを意味します。
Avro圧縮タイプ
[AVRO]
が出力形式としてが選択されている場合は、Avro圧縮タイプを選択します。次のオプションがあります。
  • なし
  • Bzip2
  • Deflate
  • Snappy
デフォルト値は
[なし]
、これは圧縮が使用されないことを意味します。
Parquet圧縮タイプ
[PARQUET]
出力形式が選択されている場合、Parquetでサポートされている圧縮タイプを選択できます。次のオプションがあります。
  • なし
  • Gzip
  • Snappy
デフォルト値は
[なし]
、これは圧縮が使用されないことを意味します。
Deflate圧縮レベル
[Deflate]
[Avro圧縮タイプ]
フィールドで選択されている場合、圧縮レベルとして0~9を指定します。デフォルトは0です。
タスクターゲットディレクトリ
増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、出力データファイル、スキーマファイル、およびCDCサイクルのコンテンツと完了ファイルを保持する他のディレクトリのルートディレクトリ。このフィールドを使用して、タスクのカスタムルートディレクトリを指定できます。
[親としての接続ディレクトリ]
オプションを有効にしている場合は、必要に応じて、接続プロパティで指定された親ディレクトリで使用するタスクターゲットディレクトリを指定できます。
このフィールドは、次のディレクトリフィールドのいずれかのパターンで{TaskTargetDirectory}プレースホルダが指定されている場合は必須です。
ディレクトリタグの追加
増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、Hiveパーティショニングの命名規則と互換性を持たせるために適用サイクルディレクトリの名前に「dt=」プレフィックスを追加するには、このチェックボックスをオンにします。このチェックボックスはデフォルトでオフになっています。
親としての接続ディレクトリ
ターゲット接続プロパティで指定されたディレクトリ値を、タスクターゲットプロパティで指定されたカスタムディレクトリパスの親ディレクトリとして使用するようにするには、このチェックボックスをオンにします。初期ロードタスクの場合、親ディレクトリは、
データディレクトリ
スキーマディレクトリ
で使用されます。増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、親ディレクトリは
データディレクトリ
スキーマディレクトリ
サイクル完了ディレクトリ
、および
サイクルコンテンツディレクトリ
で使用されます。
このチェックボックスはデフォルトで選択されています。オフにしたとき、初期ロードの場合は、
[データディレクトリ]
フィールドで出力ファイルへのフルパスを定義します。増分ロードの場合は、必要に応じて
[タスクターゲットディレクトリ]
でタスクのルートディレクトリを指定します。
データディレクトリ
初期ロードタスクの場合
、一括取り込みデータベースが出力データファイルとオプションでスキーマを保存するディレクトリのディレクトリ構造を定義します。ディレクトリパターンを定義するには、次のタイプのエントリを使用できます。
  • プレースホルダ{SchemaName}、{TableName)、{Timestamp}、{YY}、{YYYY}、{MM}、および{DD}({YY}、{YYYY}、{MM}、および{DD}は日付要素です)。{Timestamp}値の形式はyyyymmdd_hhmissmsです。ディレクトリパスに生成された日付と時刻は、初期ロードジョブがターゲットへのデータの転送を開始した日付と時刻を表します。
  • 特定のディレクトリ名。
  • toUpper()およびtoLower()関数。これは、関連付けられた(
    placeholder
    )の値を強制的に大文字または小文字に変換します。
プレースホルダの値の大文字と小文字は区別されません。
例:
myDir1/{SchemaName}/{TableName} myDir1/myDir2/{SchemaName}/{YYYY}/{MM}/{TableName}_{Timestamp} myDir1/{toLower(SchemaName)}/{TableName}_{Timestamp}
デフォルトのディレクトリパターンは
{TableName)_{Timestamp}
です。
増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合は
、cdc-dataデータファイルを含むサブディレクトリへのカスタムパスを定義します。ディレクトリパターンを定義する場合は、次のタイプのエントリを使用します。
  • プレースホルダ{TaskTargetDirectory}、{SchemaName}、{TableName)、{Timestamp}、{YY}、{YYYY}、{MM}、および{DD}({YY}、{YYYY}、{MM}、および{DD}は日付要素です)。{Timestamp}値の形式はyyyymmdd_hhmissmsです。ディレクトリパスに生成された日付と時刻は、CDCサイクルが開始された日付と時刻を表します。
    toUpperまたはtoLower関数を含める場合は、前の例に示すように、プレースホルダ名を丸かっこで囲み、関数とプレースホルダの両方を中かっこで囲みます。
  • 特定のディレクトリ名。
デフォルトのディレクトリパターンは
{TaskTargetDirectory}/data/{TableName}/data
です。
Amazon S3、フラットファイル、Microsoft Azure Data Lake Storage Gen2、およびOracle Cloud Object Storeターゲットでは、
[親としての接続ディレクトリ]
が選択されている場合、一括取り込みデータベースは、ターゲット接続プロパティで指定されたディレクトリをデータディレクトリパスのルートとして使用します。Google Cloud Storageターゲットの場合、一括取り込みデータベースは取り込みタスクのターゲットプロパティで指定した
バケット
名を使用します。
スキーマディレクトリ
デフォルトディレクトリ以外のディレクトリにスキーマファイルを保存する場合は、スキーマファイルを保存するカスタムディレクトリを指定できます。初期ロードの場合、便利になるように、以前に使用した値を使用できる場合はそれがドロップダウンリストに表示されます。このフィールドはオプションです。
初期ロードの場合、デフォルトでは、スキーマはデータディレクトリに保存されます。増分ロード、および初期ロードと増分ロードの組み合わせの場合、スキーマファイルのデフォルトディレクトリは
{TaskTargetDirectory}/data/{TableName}/schema
です。
[データディレクトリ]
フィールドと同じプレースホルダを使用できます。プレースホルダは必ず中かっこ{ }で囲んでください。
toUpperまたはtoLower関数を含める場合は、
{toLower(SchemaName)}
のように、プレースホルダ名を丸かっこで囲み、関数とプレースホルダの両方を中かっこで囲みます。
スキーマは、CSV形式で出力データファイルにのみ書き込まれます。ParquetおよびAvro形式のデータファイルには、独自の埋め込みスキーマが含まれています。
サイクル完了ディレクトリ
増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、サイクル完了ファイルを含むディレクトリへのパス。デフォルトは
{TaskTargetDirectory}/cycle/completed
です。
サイクルコンテンツディレクトリ
増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、サイクルコンテンツファイルを含むディレクトリへのパス。デフォルトは
{TaskTargetDirectory}/cycle/contents
です。
データディレクトリにサイクルのパーティション化を使用する
増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合、各データディレクトリの下に、CDCサイクルごとにタイムスタンプサブディレクトリが作成されます。
このオプションが選択されていない場合、別のディレクトリ構造を定義しない限り、個々のデータファイルがタイムスタンプなしで同じディレクトリに書き込まれます。
サマリディレクトリにサイクルのパーティション化を使用する
増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合は、サマリコンテンツサブディレクトリおよび完了サブディレクトリの下にCDCサイクルごとにタイムスタンプサブディレクトリが作成されます。
コンテンツ内の個々のファイルを一覧表示する
増分ロードタスク、および初期ロードと増分ロードの組み合わせタスクの場合は、コンテンツサブディレクトリの下に個々のデータファイルが一覧表示されます。
[サマリディレクトリにサイクルのパーティション化を使用する]
がオフの場合は、このオプションがデフォルトでオンになります。タイムスタンプや日付などのプレースホルダを使用してカスタムサブディレクトリを設定できる場合を除き、コンテンツサブディレクトリ内の個々のファイルがすべて一覧表示されます。
[データディレクトリにサイクルのパーティション化を使用する]
が選択されている場合でも、必要に応じてこのチェックボックスを選択して、個々のファイルを一覧表示し、CDCサイクルごとにグループ化することができます。
[詳細]
で次のような詳細ターゲットプロパティを入力して、監査テーブルに記録された各削除操作または各DML変更にメタデータカラムを追加することができます。
フィールド
説明
操作タイプの追加
ジョブがターゲットにプロパゲートする出力にソースSQL操作タイプを記録するメタデータカラムを追加するには、このチェックボックスを選択します。
増分ロードの場合、ジョブは、挿入を表す「I」、更新を表す「U」、または削除を表す「D」を書き込みます。初期ロードの場合、ジョブは常に、挿入を表す「I」を書き込みます。
デフォルトでは、このチェック ボックスは、増分ロードジョブ、初期および増分ロードジョブの場合はオンになっており、初期ロードジョブの場合はオフになっています。
操作時間の追加
ジョブがターゲットにプロパゲートする出力にソースSQL操作タイムスタンプを記録するメタデータカラムを追加するには、このチェックボックスをオンにします。
初期ロードの場合、ジョブは常に現在の日付と時刻を書き込みます。
デフォルトでは、このチェックボックスは選択されていません。
操作所有者の追加
ジョブがターゲットにプロパゲートする出力にソースSQL操作の所有者を記録するメタデータカラムを追加するには、このチェックボックスを選択します。
初期ロードの場合、ジョブは常に所有者として「INFA」を書き込みます。
デフォルトでは、このチェックボックスは選択されていません。
このプロパティは、MongoDBソースまたはPostgreSQLソースを持つジョブでは使用できません。
操作トランザクションIDの追加
ジョブがSQL操作のターゲットにプロパゲートする出力にソーストランザクションIDを含むメタデータカラムを追加するには、このチェックボックスを選択します。
初期ロードの場合、ジョブは常にIDとして「1」を書き込みます。
デフォルトでは、このチェックボックスは選択されていません。
前のイメージを追加
ジョブがターゲットに書き込む出力にUNDOデータを含めるには、このチェックボックスを選択します。
初期ロードの場合、ジョブはnullを書き込みます。
デフォルトでは、このチェックボックスは選択されていません。