Hi, I'm Ask INFA!
What would you like to know?
ASK INFAPreview
Please to access Ask INFA.

目次

Search

  1. はじめに
  2. データプロファイリング
  3. プロファイル
  4. プロファイル結果
  5. データプロファイリングタスクのパフォーマンスチューニング
  6. トラブルシューティング

データプロファイリング

データプロファイリング

形式オプション

形式オプション

ファイルをソースオブジェクトとして選択する場合は、必要に応じて、形式オプションを設定できます。
フラットファイル
プロファイルは、マルチバイト文字で区切られたフラットファイルおよび固定長フラットファイルで実行できます。
次の表に、区切りフラットファイルに対して設定可能なオプションの一覧を示します。
オプション
説明
区切り文字
2つのデータ列の境界を示します。
次のいずれかのオプションを選択します。
  • カンマ
  • タブ
  • コロン
  • セミコロン
  • 印刷不可。このオプションを選択すると、
    [印刷できない文字]
    ドロップダウンリストが表示されます。区切り文字として使用する、印刷できない文字を選択してください。
  • その他。このオプションを選択し、区切り文字として使用する文字を指定します。
    • カンマ、コロン、またはセミコロンを指定すると、対応するオプションが選択されます。
    • ここで指定した文字が
      [印刷できない文字]
      ドロップダウンリストのいずれかの値と一致すると、その値が
      [印刷できない文字]
      ドロップダウンリストに表示されます。
エスケープ文字または引用符を区切り文字として使用したり、連続した区切り文字と修飾子に同じ文字を使用したりすると、予期しない結果になる可能性があります。
デフォルトはカンマです。
テキスト修飾子
テキスト文字列の境界を定義する文字。
引用符を選択すると、
データプロファイリング
では引用符内の区切り文字が無視されます。
デフォルトは二重引用符(")です。
エスケープ文字
引用符で囲まれていない文字列におけるカラム区切り文字の直前の文字、または引用符で囲まれた文字列内における引用符の直前の文字。
エスケープ文字を指定すると、
データプロファイリング
は、区切り文字を普通文字として読み込みます。
フィールドラベル
プロファイル結果にカラム名を表示するためのオプションを、次のいずれかから選択します。
  • [自動生成]。
    データプロファイリング
    によってカラム名が自動生成されます。
  • [行<
    row_number
    >からインポート]。カラム名を指定した行番号からインポートします。
最初のデータ行
<row_number>
データプロファイリング
がファイルのインポート時に読み取りを開始する行番号。例えば、
2
と入力すると、
データプロファイリング
では最初の行がスキップされます。
[行からインポート]
オプションを設定すると、
データプロファイリング
によって自動的に
[最初のデータ行]
が設定されます。例えば、
[行からインポート]
オプションを10に設定すると、
データプロファイリング
によって
[最初のデータ行]
が11に設定されます。
固定長フラットファイルでプロファイルを実行するには、データ統合で設定した固定長形式を選択します。
Amazon S3 V2
次の表に、区切り形式タイプのオプションの一覧を示します。
オプション
説明
スキーマソース
ソースファイルのスキーマを指定する必要があります。以下のいずれかのオプションを選択して、スキーマを指定することができます。
  • データファイルから読み取る。Amazon S3 V2コネクタは、Amazon S3のファイルからスキーマをインポートします。
  • スキーマファイルからインポートする。ローカルマシンのスキーマ定義ファイルからスキーマをインポートします。
デフォルトは[データファイルから読み取る]です。
区切り文字
データのカラムを区切るために使用する文字。カンマ、タブ、コロン、セミコロンなどのパラメータを設定できます。タブを区切り文字として設定するには、任意のテキストエディタでタブ文字を入力する必要があります。次に、タブ文字をコピーして[区切り文字]フィールドに貼り付けます。ソースオブジェクトの区切り文字としてマルチバイト文字を指定した場合、マッピングは失敗します。
デフォルトはカンマ(,)です。
エスケープ文字
引用符なしの文字列に組み込まれているカラム区切り文字の直前の文字、または引用符付き文字列の引用符の直前の文字。
デフォルトはバックスラッシュ(\)です。
テキスト修飾子
テキスト文字列の境界を定義する文字。
引用符を選択すると、
データプロファイリング
では引用符内の区切り文字が無視されます。
デフォルトは二重引用符(")です。
修飾子モード
ターゲットオブジェクトの修飾子の動作を指定します。以下のいずれかのオプションを選択することができます。
  • 最小。デフォルトのモードです。区切り文字の値または特殊文字があるデータに修飾子を適用します。特殊文字がない場合、Secure Agentはターゲットへのデータ書き込み時に修飾子を適用しません。
  • すべて。すべてのデータに修飾子を適用します。
デフォルトは[最小]です。
コードページ
UTF-8。UnicodeおよびUnicode以外のデータの場合に選択します。Secure Agentでデータの読み取りに使用する必要があるコードページを選択します。
ヘッダー行番号
Amazon S3からのデータの読み取り時にヘッダーとして使用する行番号を指定します。ヘッダーがないファイルからデータを読み取ることもできます。デフォルトは1です。
ヘッダーのないファイルからデータを読み取るには、[ヘッダー行番号]フィールドの値を0に指定します。ヘッダーのあるファイルからデータを読み取るには、[ヘッダー行番号]フィールドの値を1以上の値に設定します。
このプロパティは、実行時およびファイルを読み取るためのデータプレビュー時に適用されます。このプロパティは、ファイルを書き込むためのデータプレビュー時に適用されます。
最初のデータ行
Secure Agentがデータの読み取りを開始する行番号を指定します。1以上の値を入力する必要があります。ヘッダーからデータを読み取るには、[ヘッダー行番号]と[最初のデータ行]のフィールドに同じ値を指定する必要があります。デフォルトは2です。
このプロパティは、実行時およびファイルを読み取るためのデータプレビュー時に適用されます。このプロパティは、ファイルを書き込むためのデータプレビュー時に適用されます。
行区切り文字
データの列を区切るために使用する文字。値は
\r\n
\n
、および
\r
に設定できます。
次の表に、avroおよびparquet形式タイプのオプションの一覧を示します。
オプション
説明
スキーマソース
ソースファイルまたはターゲットファイルのこのスキーマ。以下のいずれかのオプションを選択して、スキーマを指定することができます。
  • データファイルから読み取る。デフォルト。Amazon S3 V2コネクタは、選択したソースファイルからスキーマを読み取ります。
  • スキーマファイルからインポートする。ローカルマシンのスキーマ定義ファイルからスキーマをインポートします。
スキーマファイル
スキーマ定義ファイルをアップロードします。実行時にターゲットを作成するときに、スキーマファイルをアップロードすることはできません。
次の表に、JSON形式タイプのオプションの一覧を示します。
オプション
説明
スキーマソース
ソースファイルまたはターゲットファイルのこのスキーマ。以下のいずれかのオプションを選択して、スキーマを指定することができます。
  • データファイルから読み取る。デフォルト。Amazon S3 V2コネクタは、選択したソースファイルからスキーマを読み取ります。
  • スキーマファイルからインポートする。ローカルマシンのスキーマ定義ファイルからスキーマをインポートします。
スキーマファイル
スキーマ定義ファイルをアップロードします。実行時にターゲットを作成するときに、スキーマファイルをアップロードすることはできません。
サンプルサイズ
メタデータを取り込むための最良の一致を見つけるために読み取る行数を指定します。
メモリ制限
パーサーがJSONサンプルスキーマを読み取って処理するために使用するメモリ。
デフォルト値は2MBです。ファイルサイズが2MBを超えると、エラーが発生する可能性があります。読み取るファイルサイズに値を設定します。
Azure Data Lake Store Gen2
次の表に、区切り形式タイプのオプションの一覧を示します。
オプション
説明
スキーマソース
ソースファイルのスキーマを指定する必要があります。以下のいずれかのオプションを選択して、スキーマを指定することができます。
  • データファイルから読み取る。Azure Data Lake Store Gen2コネクタは、Azure Data Lake Storeのファイルからスキーマをインポートします。
  • スキーマファイルからインポートする。ローカルマシンのスキーマ定義ファイルからスキーマをインポートします。
デフォルトは[データファイルから読み取る]です。
区切り文字
データのカラムを区切るために使用する文字。カンマ、タブ、コロン、セミコロンなどのパラメータを設定できます。
[区切り文字]
フィールドで区切り文字としてタブを直接設定することはできません。タブを区切り文字として設定するには、任意のテキストエディタでタブ文字を入力する必要があります。その後、そのタブ文字をコピーして
[区切り文字]
フィールドに貼り付けます。
デフォルトはカンマ(,)です。
エスケープ文字
引用符なしの文字列に組み込まれているカラム区切り文字の直前の文字、または引用符付き文字列の引用符の直前の文字。
デフォルトはバックスラッシュ(\)です。
テキスト修飾子
テキスト文字列の境界を定義する文字。
引用符を選択すると、
データプロファイリング
では引用符内の区切り文字が無視されます。
デフォルトは二重引用符(")です。
修飾子モード
ターゲットオブジェクトの修飾子の動作を指定します。以下のいずれかのオプションを選択することができます。
  • 最小。デフォルトのモードです。区切り文字の値または特殊文字があるデータに修飾子を適用します。特殊文字がない場合、Secure Agentはターゲットへのデータ書き込み時に修飾子を適用しません。
  • すべて。すべてのデータに修飾子を適用します。
デフォルトは[最小]です。
コードページ
Secure Agentでデータの読み取りに使用する必要があるコードページを選択します。
Microsoft Azure Data Lake Storage Gen2コネクタがサポートするのはUTF-8のみです。残りのコードページは無視します。
ヘッダー行番号
Microsoft Azure Data Lake Storage Gen2からのデータの読み取り時にヘッダーとして使用する行番号を指定します。ヘッダーのないファイルからデータを読み取ることもできます。ヘッダーのないファイルからデータを読み取るには、
[ヘッダー行番号]
フィールドの値を0に指定します。
このプロパティは、データプレビューを実行する場合に適用されます。
デフォルトは1です。
最初のデータ行
Secure Agentがデータの読み取りを開始する行番号を指定します。1以上の値を入力する必要があります。ヘッダーからデータを読み取るには、
[ヘッダー行番号]
[最初のデータ行]
のフィールドに同じ値を指定する必要があります。デフォルトは2です。
このプロパティは、データプレビューを実行する場合に適用されます。
行区切り文字
データの列を区切るために使用する文字。値は
\r\n
\n
、および
\r
に設定できます。
次の表に、avroおよびparquet形式タイプのオプションの一覧を示します。
オプション
説明
スキーマソース
ソースファイルまたはターゲットファイルのこのスキーマ。以下のいずれかのオプションを選択して、スキーマを指定することができます。
  • データファイルから読み取る。デフォルト。Azure Data Lake Store Gen2コネクタは、選択したソースファイルからスキーマを読み取ります。
  • スキーマファイルからインポートする。ローカルマシンのスキーマ定義ファイルからスキーマをインポートします。
スキーマファイル
スキーマ定義ファイルをアップロードします。実行時にターゲットを作成するときに、スキーマファイルをアップロードすることはできません。
次の表に、JSON形式タイプのオプションの一覧を示します。
オプション
説明
スキーマソース
ソースファイルまたはターゲットファイルのこのスキーマ。以下のいずれかのオプションを選択して、スキーマを指定することができます。
  • データファイルから読み取る。デフォルト。Azure Data Lake Store Gen2コネクタは、選択したソースファイルからスキーマを読み取ります。
  • スキーマファイルからインポートする。ローカルマシンのスキーマ定義ファイルからスキーマをインポートします。
スキーマファイル
スキーマ定義ファイルをアップロードします。実行時にターゲットを作成するときに、スキーマファイルをアップロードすることはできません。
サンプルサイズ
メタデータを取り込むための最良の一致を見つけるために読み取る行数を指定します。
メモリ制限
パーサーがJSONサンプルスキーマを読み取って処理するために使用するメモリ。
デフォルト値は2MBです。ファイルサイズが2MBを超えると、エラーが発生する可能性があります。読み取るファイルサイズに値を設定します。
Google Cloud Storage V2
次の表に、区切り形式タイプのオプションの一覧を示します。
オプション
説明
スキーマソース
ソースファイルのスキーマを指定する必要があります。以下のいずれかのオプションを選択して、スキーマを指定することができます。
  • データファイルから読み取る。Google Cloud Storage V2コネクタは、Google Cloud Storageのファイルからスキーマをインポートします。
  • スキーマファイルからインポートする。ローカルマシンのスキーマ定義ファイルからスキーマをインポートします。
デフォルトは[データファイルから読み取る]です。
区切り文字
データのカラムを区切るために使用される文字。カンマ、タブ、コロン、セミコロンなどのパラメータを設定できます。タブを区切り文字として設定するには、任意のテキストエディタでタブ文字を入力する必要があります。その後、そのタブ文字をコピーして[区切り文字]フィールドに貼り付けます。
ソースオブジェクトの区切り文字としてマルチバイト文字を指定した場合、マッピングが失敗します。
タブを区切り文字として設定するには、任意のテキストエディタでタブ文字を入力する必要があります。その後、そのタブ文字をコピーして[区切り文字]フィールドに貼り付けます。
エスケープ文字
引用符なしの文字列に組み込まれているカラム区切り文字の直前の文字、または引用符付き文字列の引用符の直前の文字。
テキスト修飾子
テキスト文字列の境界を定義する文字。
引用符を選択すると、
データプロファイリング
では引用符内の区切り文字が無視されます。
デフォルトは二重引用符(")です。
修飾子モード
ターゲットオブジェクトの修飾子の動作を指定します。以下のいずれかのオプションを選択することができます。
  • 最小。デフォルトモード。区切り文字の値または特殊文字で囲まれているデータに修飾子を適用します。
  • すべて。すべてのデータに修飾子を適用します。
  • Non_Numeric。該当なし。
  • All_Non_Null。該当なし。
コードページ
Secure Agentがデータの読み取りまたは書き込みに使用するコードページを選択します。Google Cloud Storage V2コネクタは、次のコードページをサポートしています。
  • MS Windows Latin 1。ISO 8859-1 Western Europeanデータの場合に選択します。
  • UTF-8。UnicodeおよびUnicode以外のデータの場合に選択します。
  • Shift-JIS。ダブルバイト文字データの場合に選択します。
  • ISO 8859-15 Latin 9(Western European)。
  • ISO 8859-2 Eastern European。
  • ISO 8859-3 Southeast European。
  • ISO 8859-5 Cyrillic。
  • ISO 8859-9 Latin 5(Turkish)。
  • IBM EBCDIC International Latin-1。
ヘッダー行番号
Google Cloud Storageからのデータの読み取り時にヘッダーとして使用する行番号を指定します。ヘッダーがないファイルを読み取ることもできます。デフォルトは1です。
ヘッダーのないファイルからデータを読み取るには、[ヘッダー行番号]フィールドの値を0に指定します。ヘッダーのあるファイルからデータを読み取るには、[ヘッダー行番号]フィールドの値を1以上の値に設定します。[ヘッダー行番号]フィールドの値は、[最初のデータ行]フィールドの値以下になるようにしてください。このプロパティは、実行時およびファイルを読み取るためのデータプレビュー時に適用されます。詳細モードでマッピングを作成する場合、マッピングを正常に実行するには、ヘッダー行番号の値を0、1、または空に設定します。
最初のデータ行
Secure Agentがデータの読み取りを開始する行番号を指定します。1以上の値を入力する必要があります。
ヘッダーからデータを読み取るには、[ヘッダー行番号]と[最初のデータ行]のフィールドに同じ値を指定する必要があります。デフォルトは1です。
このプロパティは、実行時およびファイルを読み取るためのデータプレビュー時に適用されます。このプロパティは、ファイルを書き込むためのデータプレビュー時に適用されます。
行区切り文字
該当なし。
データの行を区切るために使用される文字。値は
\r\n
\n
、および
\r
に設定できます。
次の表に、avroおよびparquet形式タイプのオプションの一覧を示します。
オプション
説明
スキーマソース
ソースファイルまたはターゲットファイルのこのスキーマ。以下のいずれかのオプションを選択して、スキーマを指定することができます。
  • データファイルから読み取る。デフォルト。Azure Data Lake Store Gen2コネクタは、選択したソースファイルからスキーマを読み取ります。
  • スキーマファイルからインポートする。ローカルマシンのスキーマ定義ファイルからスキーマをインポートします。
スキーマファイル
スキーマ定義ファイルをアップロードします。実行時にターゲットを作成するときに、スキーマファイルをアップロードすることはできません。
次の表に、JSON形式タイプのオプションの一覧を示します。
オプション
説明
スキーマソース
ソースファイルまたはターゲットファイルのこのスキーマ。以下のいずれかのオプションを選択して、スキーマを指定することができます。
  • データファイルから読み取る。デフォルト。Azure Data Lake Store Gen2コネクタは、選択したソースファイルからスキーマを読み取ります。
  • スキーマファイルからインポートする。ローカルマシンのスキーマ定義ファイルからスキーマをインポートします。
スキーマファイル
スキーマ定義ファイルをアップロードします。実行時にターゲットを作成するときに、スキーマファイルをアップロードすることはできません。
サンプルサイズ
メタデータを取り込むための最良の一致を見つけるために読み取る行数を指定します。
メモリ制限
パーサーがJSONサンプルスキーマを読み取って処理するために使用するメモリ。
デフォルト値は2MBです。ファイルサイズが2MBを超えると、エラーが発生する可能性があります。読み取るファイルサイズに値を設定します。
複数行のJSONファイルの読み取り
該当なし。
Oracle Cloud Object Storage
次の表に、区切り形式タイプのオプションの一覧を示します。
オプション
説明
スキーマソース
ソースファイルのスキーマを指定する必要があります。以下のいずれかのオプションを選択して、スキーマを指定することができます。
  • データファイルから読み取る。Oracle Cloud Object Storageコネクタは、Oracle Cloud Object Storageのファイルからスキーマをインポートします。
  • スキーマファイルからインポートする。ローカルマシンのスキーマ定義ファイルからスキーマをインポートします。
デフォルトは[データファイルから読み取る]です。
区切り文字
データのカラムを区切るために使用される文字。カンマ、タブ、コロン、セミコロンなどのパラメータを設定できます。
[区切り文字]
フィールドで区切り文字としてタブを直接設定することはできません。タブを区切り文字として設定するには、任意のテキストエディタでタブ文字を入力する必要があります。その後、そのタブ文字をコピーして
[区切り文字]
フィールドに貼り付けます。
デフォルトはカンマ(,)です。
エスケープ文字
引用符なしの文字列に組み込まれているカラム区切り文字の直前の文字、または引用符付き文字列の引用符の直前の文字。
デフォルトはバックスラッシュ(\)です。
テキスト修飾子
テキスト文字列の境界を定義する文字。
引用符を選択すると、
データプロファイリング
では引用符内の区切り文字が無視されます。
デフォルトは二重引用符(")です。
修飾子モード
ターゲットオブジェクトの修飾子の動作を指定します。以下のいずれかのオプションを選択することができます。
  • 最小。デフォルトモード。区切り文字の値または特殊文字があるデータに修飾子を適用します。特殊文字がない場合、Secure Agentはターゲットへのデータ書き込み時に修飾子を適用しません。
  • すべて。すべてのデータに修飾子を適用します。
デフォルトは[最小]です。
コードページ
Secure Agentでデータの読み取りに使用する必要があるコードページを選択します。
Oracle Cloud Object Storageコネクタは、UTF-8のみをサポートします。残りのコードページは無視します。
ヘッダー行番号
Oracle Cloud Object Storageからのデータの読み取り時にヘッダーとして使用する行番号を指定します。ヘッダーのないファイルからデータを読み取ることもできます。ヘッダーのないファイルからデータを読み取るには、
[ヘッダー行番号]
フィールドの値を0に指定します。
このプロパティは、データプレビューを実行する場合に適用されます。
デフォルトは1です。
最初のデータ行
Secure Agentがデータの読み取りを開始する行番号を指定します。1以上の値を入力する必要があります。ヘッダーからデータを読み取るには、
[ヘッダー行番号]
[最初のデータ行]
のフィールドに同じ値を指定する必要があります。デフォルトは2です。
このプロパティは、データプレビューを実行する場合に適用されます。
行区切り文字
データの列を区切るために使用する文字。値は
\r\n
\n
、および
\r
に設定できます。