Hi, I'm Ask INFA!
What would you like to know?
ASK INFAPreview
Please to access Ask INFA.

目次

Search

  1. はじめに
  2. データプロファイリング
  3. プロファイル
  4. プロファイル結果
  5. データプロファイリングタスクのパフォーマンスチューニング
  6. トラブルシューティング

データプロファイリング

データプロファイリング

インサイト

インサイト

[インサイト]領域には、データについてCLAIREが生成した、承認または拒否できる推奨事項が表示されます。
以下の表に、
[インサイト]
タブに表示されるプロパティの一覧を示します。
プロパティ
説明
インサイトステートメント
推測されたインサイトを示す説明またはステートメント。
スコア
推測されたインサイトについて、次のスコアを示します。
  • 高。データの異常度が高いことを示します。
  • 中。データの異常度が中程度であることを示します。
  • 低。データの異常度が低いことを示します。
推測されたインサイトは、高いスコアから低いスコアの順で、分類および確認できます。
インサイトタイプ
次のタイプのインサイトを示します。
  • 完全性チェック。データが不完全なようです。カラムにNULL、空白、空の値、またはゼロのみを含む値が1つ以上含まれています。
  • 一意性チェック。カラムのデータ値の大部分が一意です。
  • カラム長の偏差。カラムのデータ値の長さに高い標準偏差があります。
  • 数値の分布。数値が95%の標準偏差の範囲外です。
  • 日付有効性チェック。有効な日付パターンに従っていない日付が1つ以上あります。
  • 日付ロケールチェック。1つ以上の日付値がロケール形式と一致していません。
  • 日と日付の分布。日付カラムの日の値の分布が異常です。
  • 月と日付の分布。日付カラムの月の値の分布が異常です。
  • 年と日付の分布。日付カラムの年の値の分布が異常です。
  • 完全性の変動。
    • データ型が整数または小数の場合: 現在のプロファイル実行と以前の1~5回のプロファイル実行の間での、カラム内のNULL値およびゼロのみを含む値の数の異常な変動。
    • データ型が文字列、日付、またはタイムスタンプの場合: 現在のプロファイル実行と以前の1~5回のプロファイル実行の間での、カラム内の空白値、NULL値、および空の値の数の異常な変動。
  • 個別の変動。現在のプロファイルの実行と以前の1~5回のプロファイル実行の間での、カラム内の個別の値の数における70%を超える増加。
  • 最小値と最大値の変動。現在および以前のプロファイル実行の間での、カラム内の最小値と最大値の差における70%を超える増加。
  • 上位のパターンの安定性。前回のプロファイル実行と比較した場合の、カラムの最上位のパターンの大幅な減少。
  • スペル分析。音声的に類似しているが、スペルが違う要素を含むデータの値。
  • 分布シフト。複数回実行されたプロファイルの平均および標準偏差に基づいて、予想以上にシフトした可能性のあるデータの分布。
  • カラムトークンの偏差。カラム内の標準偏差が高いトークンの数。
  • 特殊文字。パターンの上位80%に含まれない、特殊文字を含むカラム。
  • NULL日付分析。00/00/0000や99/99/9999など、デフォルトの日付パターンの値を含む可能性のある、文字列データ型のカラム。
カラム
インサイトが関連するカラム名。
ステータス
インサイトのステータス。インサイトの初回生成時、ステータスは空白で表示されます。
各インサイトタイプは、データセットの他のカラムとは関係なく、アルゴリズムに従ってカラムを調べます。これらのアルゴリズムは、各プロファイルの実行で計算されたメトリックに基づいています。次の表に、推測されたインサイトのスコアに到達するために使用されるアルゴリズムとロジックを示します。
インサイトタイプ
アルゴリズム
スコアの解釈
完全性チェック
NULL値、空白値、空の値、またはカラムにゼロのみを含む値を持つ合計行のパーセンテージを計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
  • 文字列型
  • 日付
  • Integer

    0 - OK

    92から100 - OK

    0から3 - 低

    3から5 - 中

    5から8 - 高

一意性チェック
次の式に基づいて、一意でない行の割合を計算します。
一意でない行の割合 = (合計行 - 一意の行) / 合計行 * 100
一意でない行の計算されたパーセンテージが3%未満の場合、インサイトが生成されます。
カラムに1つ以上のNULL値が含まれている場合、インサイトは生成されません。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
  • 文字列型
  • 日付
  • Integer

    0 - OK

    0から2 - 高

    2から3 - 低

カラム長の偏差
平均値からの標準偏差の2倍を超える、値の頻度の英数字または数値の長さを計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
  • 文字列型
  • 整数型
  • 10進型

    0 - OK

    0から1 - 低

    1から5 - 中

    5 - 高

数値の分布
標準偏差の2倍を超える、または平均値の95%から外れる、プロファイルされた行の総数に関する、値の頻度の値のパーセンテージを計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
  • すべてが数値パターンの文字列
  • 日付
  • Integer

    0 - OK

    15から100 - OK

    0から1 - 低

    1から5 - 中

    5から15 - 高

スコアが100%になることはありません。
日付有効性チェック
推測されたデータ型が日付のカラムのみを確認し、有効な日付パターンに準拠していない日付の値のパーセンテージを計算します。
NULL値は計算で無視されます。
このインサイトタイプは、データ型として日付コンテンツを含む文字列を持つカラムに適用されます。

    0 - OK

    0から5 - 低

    5から10 - 中

    10 - 高

日付ロケールチェック
ロケール形式と一致しない1つ以上の日付値を持つカラムを確認します。異なる日付ロケール形式で示される値の数を計算します。
このインサイトタイプは、文字列データ型のカラムに適用されます。

    1 - OK

    2 - 中

    3 - 高

日と日付の分布
値の頻度の日付の日を抽出し、平均と標準偏差を計算します。日が標準偏差の2倍を超える、または平均値の95%から外れる日付を計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
  • 日付パターンの文字列
  • 日付
  • タイムスタンプ

    0 - OK

    15から100 - OK

    0から1 - 低

    1から5 - 中

    5から15 - 高

スコアが100%になることはありません。
月と日付の分布
値の頻度の日付の月を抽出し、平均と標準偏差を計算します。日が標準偏差の2倍を超える、または平均値の95%から外れる日付を計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
  • 日付パターンの文字列
  • 日付
  • タイムスタンプ

    0 - OK

    15から100 - OK

    0から1 - 低

    1から5 - 中

    5から15 - 高

スコアが100%になることはありません。
年と日付の分布
値の頻度の日付の年を抽出し、平均と標準偏差を計算します。日が標準偏差の2倍を超える、または平均値の95%から外れる日付を計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
  • 日付パターンの文字列
  • 日付
  • タイムスタンプ

    0 - OK

    15から100 - OK

    0から1 - 低

    1から5 - 中

    5から15 - 高

スコアが100%になることはありません。
完全性の変動
現在のプロファイル実行と直前の5回のプロファイル実行の切り捨てられた平均の間での、カラム内のNULL値およびゼロのみを含む値の数の変動を計算し、最低値と最高値を破棄します。以前のプロファイル実行が4回未満の場合は、実際の平均を使用します。以前に実行されたプロファイルがない場合、インサイトは生成されません。
完全性の変動の割合 = (現在の平均値 - 以前の平均値) / 以前の平均値 * 100
  • 以前の平均値がゼロの場合、完全性の変動の割合は100%に増加します。
  • 完全性の変動の割合が負の場合、インサイトは生成されません。
次の値は、各データ型でNULL値と見なされる値です。
  • 整数 - 0およびNULL値
  • 10進数 - 0.0およびNULL値
  • 文字列 - 空白または空の文字列、およびNULL値
  • 日付 - NULL値
  • タイムスタンプ - NULL値

    [0から80] - OK

    (80から90] - 中

    (90から∞) - 高

個別の変動
現在のプロファイル実行と直前の5回のプロファイル実行の切り捨てられた平均の間での、カラム内の個別の値の数が70%を超えて増加しているかどうかを確認し、最小値と最大値を破棄します。以前のプロファイル実行が4回未満の場合は、実際の平均を使用します。以前に実行されたプロファイルがない場合、インサイトは生成されません。
個別の変動の割合 = (現在の平均値 - 以前の平均値) / 以前の平均値 * 100
以前の平均値がゼロの場合、個別の変動の割合は+∞に増加します。個別の変動の割合が負の場合、インサイトは生成されません。

    (-∞から70] - OK

    (70から90] - 低

    (90から200] - 中

    (200から+∞) - 高

最小値と最大値の変動
前回のプロファイル実行と比較した場合の、カラムの最小値と最大値の差において、70%を超える増加があるかどうかを確認します。
CLAIREは、次のシナリオでは、インサイトの推奨事項のカラムを考慮しません。
  • 前回のプロファイル実行と比較した場合の、カラムの最小値と最大値の差。
  • 1000行未満のソース。
  • 100% NULLから値に遷移するカラム。
最小値と最大値の変動の割合 = (現在の差分 - 前回の差分) / 前回の差分 * 100
説明:
  • 前回の差分 = 最初の実行での最大値 - 最初の実行での最小値
  • 現在の差分 = 2回目の実行での最大値 - 2回目の実行での最小値
例えば、2回のプロファイル実行でのpo_create_dateカラムの最小値と最大値は次のとおりです。
  • 前回の実行: 最小値 = 1998年1月1日、最大値 = 2013年3月3日
  • 現在の実行: 最小値 = 2003年2月1日、最大値 = 2025年12月7日
前回の差分 = 5540日
現在の差分 = 8345日
最小値と最大値の変動の割合 = (8345 - 5540) / 5540 = 50.6%
50.6%のスコアは、カラムのデータ異常をOKと解釈します。

    [0から70] - OK

    (70から100] - 中

    (100から∞) - 高

上位のパターンの安定性
前回のプロファイル実行と比較して、30%以上のコンプライアンスの上位のパターンが大幅に減少しているかどうかを確認します。大幅な減少は、データの形状が予想以上に変化したことを示している可能性があります。減少は、次の式を使用して産出した負の数として測定されます:
現在の割合 - 前回の割合 / 前回の割合 * 100
インサイトでは、前回の実行での主要なパターンを含むカラムが考慮されます。両方の実行で、同じフィルタを使用する必要があります

    (-99, -70] - 高

    (-70, -60] - 中

    (-60, -30] - 低

    (-30, 0] - OK

スペル分析
文字列値ごとにフィンガープリントを作成し、NULL以外の一意のフィンガープリントの数を、NULL以外の値の数と比較します。CLAIREは、割合としての差が大きすぎる(スペルミスがいくつかあることを示している)場合にインサイトを実行します。
条件を満たすには、上位80%のパターンに、文字(X)および最大3つのスペースとハイフンのみが含まれていることが必要です。これは、名前に対応するためです。
値に含まれる値頻度の95%が5文字以上の場合、インサイトが生成されます。

    [0,0.5] - OK

    (0.5,1] - 低

    (1, 2] - 中

    (2,100] - 高

分布シフト
4つ以上のプロファイルについて、値の平均分布と標準分布を追跡します。期待されるのは、平均と標準偏差が一定のままであるか、一貫して上下にシフトするかのいずれかです。例えば、同じ割合で一貫して上下にシフトする人口規模の情報を含むテーブルなどです。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
  • 整数型
  • 10進型

    [0,2] - OK

    (2,3] - 中

    (3,∞] - 高

カラムトークンの偏差
平均値から2つの標準偏差を超える値の頻度の文字列値におけるトークンの数。トークンとは、空白と特殊文字(. , / -)で区切られた一連の英数字です。

    0 - OK

    (0,1] - 低

    (1, 5] - 中

    (5,100] - 高

特殊文字
パターンの上位80%に含まれない特殊文字がデータにあるかどうかを確認します。CLAIREは、このデータを異常と見なします。さらにCLAIREは、データプロファイリングが、decimal、integer、floatなどの数値データ型を100%と推測する場合、文字列データ型を考慮しません。

    0 - OK

    (0,1] - 低

    (1, 3] - 中

    (3,100] - 高

NULL日付分析
デフォルトの日付パターンから、すべてゼロまたはすべて9の値のいずれかを含む可能性のある文字列データ型のカラムを確認します。このインサイトタイプは、文字列データ型のカラムに適用されます。
文字列データ型のカラムに、デフォルトの日付パターンからのすべてゼロおよびすべて9の値が含まれている場合、インサイトは値を無効と見なします。例:
  • 0000-00-00または9999-99-99(年-月-日または年-日-月)
  • 00/00/0000または99/99/9999(月/日/年または日/月/年)
  • 00000000または9999999(YYYYMMDD)
文字列データ型のカラムに、デフォルトの日付パターンからの有効な日付、月、または年の部分が含まれている場合、インサイトはその値を有効と見なします。例:
  • 21/99/9999
  • 99/02/9999
  • 99/99/1994
インサイトは、NULL値も有効な日付パターンと見なします。

    0 - OK

    (0,1] - 低

    (1,2] - 中

    (2,100] - 高