Hi, I'm Ask INFA!
What would you like to know?
ASK INFAPreview
Please to access Ask INFA.

目次

Search

  1. はじめに
  2. データプロファイリング
  3. プロファイル
  4. プロファイル結果
  5. データプロファイリングタスクのパフォーマンスチューニング
  6. トラブルシューティング

データプロファイリング

データプロファイリング

詳細オプション

詳細オプション

異常値の検出、日付と時刻の推測、その他のプロファイル関連のパラメータの推測を行うための詳細オプションを設定できます。
以下の表に、プロファイルに対して設定できる詳細オプションの一覧を示します。
オプション
説明
値の頻度ペアの最大数
プロファイル結果に表示される頻度が最も高いカラム値の数。デフォルトは500です。
例えば、この値を100に設定すると、上位100個の値のみがプロファイル結果に表示されます。
プロファイルの値頻度情報をプロファイリングウェアハウスに保存しないようにする場合は、値を0に設定します。
パターンの最大数
プロファイル結果に表示される回数が最大であるパターンの数。他のパターンは、
[結果]
領域の
[パターン]
[その他]
カテゴリの下に表示されます。デフォルトは10です。
例えば、この値を3に設定すると、上位3個のパターンがその統計とともに表示され、他のパターンは
[その他]
カテゴリの下に統合されます。
パターンしきい値の割合(%)
プロファイル結果でパターンの派生に使用される値の最大割合(%)。デフォルトは5です。
例えば、この値を4に設定すると、4%以上のパターンがその統計とともに個別に表示され、他のパターンは
[その他]
カテゴリの下に統合されます。
日付と時刻の推測
日付または時刻データ型のカラムの日付と時刻を推測します。デフォルトは[はい]です。
異常値の検出
ソースオブジェクトでパターンと値の頻度の異常値を検出します。デフォルトは[はい]です。
カラムあたりの分割処理の最小行数
ここで入力した最小行数よりも多くの行がソースオブジェクトに含まれている場合、
データプロファイリング
は、プロファイルの実行時にソースカラムあたり1つのサブタスクを使用します。デフォルトは100,000,000です。
マッピングあたりの最大カラム数
ソース行数が
[カラムあたりの分割処理の最小行数]
の値よりも少ない場合の、各マッピングのカラム数。デフォルトは50です。
マッピングあたりの最大メモリ*
各マッピングに割り当てるメモリの最大量。デフォルトは512MBです。
デフォルトのバッファブロックサイズ
ソースからターゲットにデータブロックを移動するために使用するバッファブロックのサイズ。デフォルトは[自動]です。
次のいずれかのオプションを入力します。
  • 自動。自動メモリ設定を使用します。[自動]を使用する場合は、
    [マッピングあたりの最大メモリ]
    を設定します。
  • 数値。使用する数値を入力します。デフォルトの測定単位はバイトです。別の測定単位を指定するには、KB、MB、またはGBを追加します。例えば、「512 MB」と指定します。
DTMバッファサイズ
DTMプロセスからタスクに割り当てられるメモリの量。デフォルトは[自動]です。
デフォルトでは、最小で12 MBが実行時にバッファに割り当てられます。
次のいずれかのオプションを使用します。
  • 自動。自動メモリ設定を使用します。[自動]を使用する場合は、
    [マッピングあたりの最大メモリ]
    を設定します。
  • 数値。使用する数値を入力します。デフォルトの測定単位はバイトです。別の測定単位を指定するには、KB、MB、またはGBを追加します。例えば、「512 MB」と指定します。
行順序ありのバッファの長さ
フラットファイルソースの各行について、タスクが読み取るバイト数。デフォルトは1024です。
* マッピングはサブタスクの一種です。データを同時に処理する
データプロファイリング
タスクが、
データプロファイリング
によって作成および実行されます。
詳細オプションのデフォルト値は、最適なパフォーマンスを得るために導出された値です。ただし、値は必要に応じて設定できます。
データプロファイリング
タスクのパフォーマンスを最適化するには、データプロファイリングタスクのパフォーマンスチューニングを参照してください。
AvroまたはParquetソースオブジェクトを使用して、プロファイルに次の詳細オプションを設定できます。
  • 値の頻度ペアの最大数
  • 最大パターン数
  • パターンのしきい値の割合
  • 異常値の検出