Data Discovery 指南

上一个下一个

Spark 引擎上的数据域发现

在 Spark 引擎上运行配置文件来执行数据发现时，引用表会暂存在 Hadoop 群集上。要确保所有数据域的引用表都暂存在群集上，可以执行以下步骤：

执行数据域发现时，必须具有模拟 HDFS 用户的权限。

获取所用的引用数据库的 JDBC .jar 文件。可以从数据库供应商网站下载这些文件。

将下载的文件复制到以下位置：

<INFA_HOME>/externaljdbcjars

启动 Informatica Administrator，然后在

域导航器

中选择

数据集成服务

。

单击

属性选项卡

中的

自定义属性

选项。

设置以下自定义属性来暂存数据域的引用表：

属性名称	属性值
AdvancedProfilingServiceOptions.ProfilingSparkReferenceDataHDFSDir	hdfs://<Namenode>:<Port>/tmp/cms
ExecutionContextOptions.SparkRefTableHadoopConnectorArgs	--connect <JDBC thin 驱动程序连接 URL>

确保群集中存在

hdfs://<Namenode>:<Port>/tmp/cms

目录或在要暂存数据的位置创建一个自定义目录。默认情况下，引用数据会暂存在

hdfs://<Namenode>:<Port>/tmp/cms

目录中。

再次应用数据集成服务。

打开 Analyst 工具或 Developer tool，并确保在第一次运行配置文件时选择所有数据域以暂存引用数据。

如果在第一次运行配置文件时没有选择所有数据域，之后又在下一次运行配置文件时选择了其他数据域，则配置文件运行将失败。

发送反馈