目次

Search

  1. はじめに
  2. 一括取り込みデータベース

一括取り込みデータベース

一括取り込みデータベース

フラットファイルターゲットのプロパティ

フラットファイルターゲットのプロパティ

データベース統合
タスクを定義する場合は、フラットファイルターゲットのいくつかのプロパティをタスクウィザードの
[ターゲット]
ページで入力する必要があります。
フラットファイルターゲットの場合、これらのプロパティは初期ロードジョブにのみ適用されます。
[ターゲット]
では、次のフラットファイルターゲットのプロパティを入力できます。
プロパティ
説明
出力形式
出力ファイルの形式を選択します。次のオプションがあります。
  • CSV
  • AVRO
デフォルトの値は
[CSV]
です。
CSV形式の出力ファイルでは、各フィールドの区切り文字として二重引用符("")が使用されます。
CSVファイルへのヘッダーの追加
[CSV]
が出力形式として選択されている場合は、このチェックボックスをオンにして、ソース列名を含むヘッダーを出力CSVファイルに追加します。
Avro形式
出力形式として
[AVRO]
を選択した場合、ソーステーブルごとに作成されるAvroスキーマの形式を選択します。次のオプションがあります。
  • Avro-Flat
    。すべてのAvroフィールドを1つのレコードに一覧表示する場合に、このAvroスキーマ形式を使用します。
  • Avro-Generic
    。ソーステーブルのすべてのカラムをAvroフィールドの単一の配列に一覧表示する場合に、このAvroスキーマ形式を使用します。
  • Avro-Nested
    。各タイプの情報を個別のレコードに編成する場合に、このAvroスキーマ形式を使用します。
デフォルト値は
[Avro-Flat]
です。
Avroシリアル化形式
出力形式として
[AVRO]
が選択されている場合は、Avro出力ファイルのシリアル化形式を選択します。次のオプションがあります。
  • なし
  • Binary
  • JSON
デフォルト値は
[Binary]
です。
Avroスキーマディレクトリ
出力形式として
[AVRO]
が選択されている場合は、
一括取り込みデータベース
が各ソーステーブルのAvroスキーマ定義を格納しているローカルディレクトリを指定します。スキーマ定義ファイルには、次の命名パターンがあります。
schemaname
_
tablename
.txt
このディレクトリが指定されていない場合、Avroスキーマ定義ファイルは作成されません。
ファイル圧縮タイプ
CSVまたはAVRO出力形式の出力ファイルのファイル圧縮タイプを選択します。次のオプションがあります。
  • なし
  • Deflate
  • Gzip
  • Snappy
デフォルト値は
[なし]
、これは圧縮が使用されないことを意味します。
Avro圧縮タイプ
[AVRO]
が出力形式としてが選択されている場合は、Avro圧縮タイプを選択します。次のオプションがあります。
  • なし
  • Bzip2
  • Deflate
  • Snappy
デフォルト値は
[なし]
、これは圧縮が使用されないことを意味します。
Deflate圧縮レベル
[Deflate]
[Avro圧縮タイプ]
フィールドで選択されている場合、圧縮レベルとして0~9を指定します。デフォルトは0です。
データディレクトリ
初期ロードタスクの場合、一括取り込みデータベースが出力データファイルとオプションでスキーマを保存するディレクトリのディレクトリ構造を定義します。ディレクトリパターンを定義するには、次のタイプのエントリを使用できます。
  • プレースホルダ{SchemaName}、{TableName)、{Timestamp}、{YY}、{YYYY}、{MM}、および{DD}。ここで、{YY}、{YYYY}、{MM}、および{DD}は日付要素です。{Timestamp}値の形式はyyyymmdd_hhmissmsです。ディレクトリパスに生成された日付と時刻は、初期ロードジョブがターゲットへのデータの転送を開始した日付と時刻を示します。
  • 特定のディレクトリ名。
  • toUpper()およびtoLower()関数。これは、関連付けられた(
    placeholder
    )の値を大文字または小文字にすることを強制します。
プレースホルダの値の大文字と小文字は区別されません。
例:
myDir1/{SchemaName}/{TableName} myDir1/myDir2/{SchemaName}/{YYYY}/{MM}/{TableName}_{Timestamp} myDir1/{toLower(SchemaName)}/{TableName}_{Timestamp}
デフォルトのディレクトリパターンは
{TableName)_{Timestamp}
です。
Amazon S3、フラットファイルおよびMicrosoft Azure Data Lake Storage Gen2ターゲットでは、
[親としての接続ディレクトリ]
が選択されている場合、一括取り込みデータベースは、ターゲット接続プロパティで指定されたディレクトリをデータディレクトリパスのルートとして使用します。Google Cloud Storageターゲットの場合、一括取り込みデータベースは取り込みタスクのターゲットプロパティで指定した
バケット
名を使用します。
親としての接続ディレクトリ
初期ロードタスクの場合、ターゲット接続プロパティで指定されたディレクトリ値を、タスクターゲットプロパティで指定されたカスタムディレクトリパスの親ディレクトリとして使用するようにするには、このチェックボックスを選択します。親ディレクトリは、
データディレクトリ
スキーマディレクトリ
で使用されます。
スキーマディレクトリ
初期ロードタスクの場合、デフォルトディレクトリ以外のディレクトリにスキーマファイルを保存する場合は、スキーマファイルを保存するカスタムディレクトリを指定できます。このフィールドはオプションです。
デフォルトでは、スキーマはデータディレクトリに保存されます。増分ロードの場合、スキーマファイルのデフォルトディレクトリは、
{TaskTargetDirectory}/data/{TableName}/schema
です。
[データディレクトリ]
フィールドと同じプレースホルダを使用できます。プレースホルダが中括弧{}で囲まれていることを確認します。
[詳細]
で次のような詳細ターゲットプロパティを入力できます。
フィールド
説明
操作タイプの追加
ジョブがターゲットに伝播する出力にソースSQL操作タイプを含むメタデータカラムを追加するには、このチェックボックスを選択します。
初期ロードの場合、ジョブは常に挿入を表す「I」を書き込みます。
デフォルトでは、このチェックボックスはオフです。
操作時間の追加
ジョブがターゲットにプロパゲートする出力にソースSQL操作タイムスタンプを記録するメタデータカラムを追加するには、このチェックボックスをオンにします。
初期ロードの場合、ジョブは常に現在の日付と時刻を書き込みます。
デフォルトでは、このチェックボックスは選択されていません。
操作所有者の追加
ジョブがターゲットにプロパゲートする出力にソースSQL操作の所有者を記録するメタデータカラムを追加するには、このチェックボックスを選択します。
初期ロードの場合、ジョブは常に所有者として「INFA」を書き込みます。
デフォルトでは、このチェックボックスは選択されていません。
このプロパティは、MongoDBソースまたはPostgreSQLソースを持つジョブでは使用できません。
操作トランザクションIDの追加
ジョブがSQL操作のターゲットにプロパゲートする出力にソーストランザクションIDを含むメタデータカラムを追加するには、このチェックボックスを選択します。
初期ロードの場合、ジョブは常にIDとして「1」を書き込みます。
デフォルトでは、このチェックボックスは選択されていません。
前のイメージを追加
ジョブがターゲットに書き込む出力にUNDOデータを含めるには、このチェックボックスを選択します。
初期ロードの場合、ジョブはnullを書き込みます。
デフォルトでは、このチェックボックスは選択されていません。