Data Discovery und Stichprobenoptionen auf der Spark-Engine
Data Discovery und Stichprobenoptionen auf der Spark-Engine
Ab Version 10.4.0 können Sie Profile zum Erkennen von Datendomänen ausführen und Stichprobenoptionen für die Spark-Engine wählen.
Datendomänenerkennung auf der Spark-Engine
Sie können die Datendomänenerkennung auf der Spark-Engine durchführen.
Stichprobenoptionen auf der Spark-Engine
Sie können die folgenden Stichprobenoptionen wählen, um Datendomänen auf der Spark-Engine zu erkennen:
Mit der Stichprobenoption
Limit n
wird ein Profil basierend auf der Anzahl der Zeilen im Datenobjekt ausgeführt. Wenn Sie Datendomänen in der Hadoop-Umgebung erkennen möchten, sammelt die Spark-Engine Stichproben aus mehreren Partitionen des Datenobjekts und überträgt die Stichproben an einen einzelnen Knoten, um die Stichprobengröße zu berechnen.
Mit der Stichprobenoption
Random percentage
wird ein Profil basierend auf dem Prozentsatz der Zeilen im Datenobjekt ausgeführt.
Weitere Informationen finden Sie im Kapitel
Enterprise Data Catalog-Konzepte
im
Informatica 10.4.0 Enterprise Data Catalog-Administratorhandbuch