Data Profiling
- Data Profiling
- 所有产品
プロパティ
| 説明
|
---|---|
インサイトステートメント
| 推測されたインサイトを示す説明またはステートメント。
|
スコア
| 推測されたインサイトについて、次のスコアを示します。
|
インサイトタイプ
| 次のタイプのインサイトを示します。
|
カラム
| インサイトが関連するカラム名。
|
ステータス
| インサイトのステータス。インサイトの初回生成時、ステータスは空白で表示されます。
|
インサイトタイプ
| アルゴリズム
| スコアの解釈
|
---|---|---|
完全性チェック
| NULL値、空白値、空の値、またはカラムにゼロのみを含む値を持つ合計行のパーセンテージを計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
| 0 - OK
92から100 - OK
0から3 - 低
3から5 - 中
5から8 - 高
|
一意性チェック
| 次の式に基づいて、一意でない行の割合を計算します。
一意でない行の割合 = (合計行 - 一意の行) / 合計行 * 100
一意でない行の計算されたパーセンテージが3%未満の場合、インサイトが生成されます。
カラムに1つ以上のNULL値が含まれている場合、インサイトは生成されません。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
| 0 - OK
0から2 - 高
2から3 - 低
|
カラム長の偏差
| 平均値からの標準偏差の2倍を超える、値の頻度の英数字または数値の長さを計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
| 0 - OK
0から1 - 低
1から5 - 中
5 - 高
|
数値の分布
| 標準偏差の2倍を超える、または平均値の95%から外れる、プロファイルされた行の総数に関する、値の頻度の値のパーセンテージを計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
| 0 - OK
15から100 - OK
0から1 - 低
1から5 - 中
5から15 - 高
スコアが100%になることはありません。
|
日付有効性チェック
| 推測されたデータ型が日付のカラムのみを確認し、有効な日付パターンに準拠していない日付の値のパーセンテージを計算します。
NULL値は計算で無視されます。
このインサイトタイプは、データ型として日付コンテンツを含む文字列を持つカラムに適用されます。
| 0 - OK
0から5 - 低
5から10 - 中
10 - 高
|
日付ロケールチェック
| ロケール形式と一致しない1つ以上の日付値を持つカラムを確認します。異なる日付ロケール形式で示される値の数を計算します。
このインサイトタイプは、文字列データ型のカラムに適用されます。
| 1 - OK
2 - 中
3 - 高
|
日と日付の分布
| 値の頻度の日付の日を抽出し、平均と標準偏差を計算します。日が標準偏差の2倍を超える、または平均値の95%から外れる日付を計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
| 0 - OK
15から100 - OK
0から1 - 低
1から5 - 中
5から15 - 高
スコアが100%になることはありません。
|
月と日付の分布
| 値の頻度の日付の月を抽出し、平均と標準偏差を計算します。日が標準偏差の2倍を超える、または平均値の95%から外れる日付を計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
| 0 - OK
15から100 - OK
0から1 - 低
1から5 - 中
5から15 - 高
スコアが100%になることはありません。
|
年と日付の分布
| 値の頻度の日付の年を抽出し、平均と標準偏差を計算します。日が標準偏差の2倍を超える、または平均値の95%から外れる日付を計算します。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
| 0 - OK
15から100 - OK
0から1 - 低
1から5 - 中
5から15 - 高
スコアが100%になることはありません。
|
完全性の変動
| 現在のプロファイル実行と直前の5回のプロファイル実行の切り捨てられた平均の間での、カラム内のNULL値およびゼロのみを含む値の数の変動を計算し、最低値と最高値を破棄します。以前のプロファイル実行が4回未満の場合は、実際の平均を使用します。以前に実行されたプロファイルがない場合、インサイトは生成されません。
完全性の変動の割合 = (現在の平均値 - 以前の平均値) / 以前の平均値 * 100
次の値は、各データ型でNULL値と見なされる値です。
| [0から80] - OK
(80から90] - 中
(90から∞) - 高
|
個別の変動
| 現在のプロファイル実行と直前の5回のプロファイル実行の切り捨てられた平均の間での、カラム内の個別の値の数が70%を超えて増加しているかどうかを確認し、最小値と最大値を破棄します。以前のプロファイル実行が4回未満の場合は、実際の平均を使用します。以前に実行されたプロファイルがない場合、インサイトは生成されません。
個別の変動の割合 = (現在の平均値 - 以前の平均値) / 以前の平均値 * 100
以前の平均値がゼロの場合、個別の変動の割合は+∞に増加します。個別の変動の割合が負の場合、インサイトは生成されません。
| (-∞から70] - OK
(70から90] - 低
(90から200] - 中
(200から+∞) - 高
|
最小値と最大値の変動
| 前回のプロファイル実行と比較した場合の、カラムの最小値と最大値の差において、70%を超える増加があるかどうかを確認します。
CLAIREは、次のシナリオでは、インサイトの推奨事項のカラムを考慮しません。
最小値と最大値の変動の割合 = (現在の差分 - 前回の差分) / 前回の差分 * 100
説明:
例えば、2回のプロファイル実行でのpo_create_dateカラムの最小値と最大値は次のとおりです。
前回の差分 = 5540日
現在の差分 = 8345日
最小値と最大値の変動の割合 = (8345 - 5540) / 5540 = 50.6%
50.6%のスコアは、カラムのデータ異常をOKと解釈します。
| [0から70] - OK
(70から100] - 中
(100から∞) - 高
|
上位のパターンの安定性
| 前回のプロファイル実行と比較して、30%以上のコンプライアンスの上位のパターンが大幅に減少しているかどうかを確認します。大幅な減少は、データの形状が予想以上に変化したことを示している可能性があります。減少は、次の式を使用して産出した負の数として測定されます: 現在の割合 - 前回の割合 / 前回の割合 * 100
インサイトでは、前回の実行での主要なパターンを含むカラムが考慮されます。両方の実行で、同じフィルタを使用する必要があります
| (-99, -70] - 高
(-70, -60] - 中
(-60, -30] - 低
(-30, 0] - OK
|
スペル分析
| 文字列値ごとにフィンガープリントを作成し、NULL以外の一意のフィンガープリントの数を、NULL以外の値の数と比較します。CLAIREは、割合としての差が大きすぎる(スペルミスがいくつかあることを示している)場合にインサイトを実行します。
条件を満たすには、上位80%のパターンに、文字(X)および最大3つのスペースとハイフンのみが含まれていることが必要です。これは、名前に対応するためです。
値に含まれる値頻度の95%が5文字以上の場合、インサイトが生成されます。
| [0,0.5] - OK
(0.5,1] - 低
(1, 2] - 中
(2,100] - 高
|
分布シフト
| 4つ以上のプロファイルについて、値の平均分布と標準分布を追跡します。期待されるのは、平均と標準偏差が一定のままであるか、一貫して上下にシフトするかのいずれかです。例えば、同じ割合で一貫して上下にシフトする人口規模の情報を含むテーブルなどです。
このインサイトタイプは、次のいずれかのデータ型のカラムに適用されます。
| [0,2] - OK
(2,3] - 中
(3,∞] - 高
|
カラムトークンの偏差
| 平均値から2つの標準偏差を超える値の頻度の文字列値におけるトークンの数。トークンとは、空白と特殊文字(. , / -)で区切られた一連の英数字です。
| 0 - OK
(0,1] - 低
(1, 5] - 中
(5,100] - 高
|
特殊文字
| パターンの上位80%に含まれない特殊文字がデータにあるかどうかを確認します。CLAIREは、このデータを異常と見なします。さらにCLAIREは、データプロファイリングが、decimal、integer、floatなどの数値データ型を100%と推測する場合、文字列データ型を考慮しません。
| 0 - OK
(0,1] - 低
(1, 3] - 中
(3,100] - 高
|
NULL日付分析
| デフォルトの日付パターンから、すべてゼロまたはすべて9の値のいずれかを含む可能性のある文字列データ型のカラムを確認します。このインサイトタイプは、文字列データ型のカラムに適用されます。
文字列データ型のカラムに、デフォルトの日付パターンからのすべてゼロおよびすべて9の値が含まれている場合、インサイトは値を無効と見なします。例:
文字列データ型のカラムに、デフォルトの日付パターンからの有効な日付、月、または年の部分が含まれている場合、インサイトはその値を有効と見なします。例:
インサイトは、NULL値も有効な日付パターンと見なします。
| 0 - OK
(0,1] - 低
(1,2] - 中
(2,100] - 高
|