目录

Search

  1. Data Discovery 简介
  2. 使用 Informatica Analyst 的 Data Discovery
  3. 使用 Informatica Developer 执行数据发现
  4. 基于剖析仓库连接的功能支持

Data Discovery 指南

Data Discovery 指南

Spark 引擎上的数据域发现

Spark 引擎上的数据域发现

在 Spark 引擎上运行配置文件来执行数据发现时,引用表会暂存在 Hadoop 群集上。要确保所有数据域的引用表都暂存在群集上,可以执行以下步骤:

先决条件:

执行数据域发现时,必须具有模拟 HDFS 用户的权限。

下载 JDBC .JAR 文件

  1. 获取所用的引用数据库的 JDBC .jar 文件。可以从数据库供应商网站下载这些文件。
  2. 将下载的文件复制到以下位置:
    <INFA_HOME>/externaljdbcjars

在数据集成服务上配置自定义属性

  1. 启动 Informatica Administrator,然后在
    域导航器
    中选择
    数据集成服务
  2. 单击
    属性选项卡
    中的
    自定义属性
    选项。
  3. 设置以下自定义属性来暂存数据域的引用表:
    属性名称
    属性值
    AdvancedProfilingServiceOptions.ProfilingSparkReferenceDataHDFSDir
    hdfs://<Namenode>:<Port>/tmp/cms
    ExecutionContextOptions.SparkRefTableHadoopConnectorArgs
    --connect <JDBC thin 驱动程序连接 URL>
  4. 确保群集中存在
    hdfs://<Namenode>:<Port>/tmp/cms
    目录。如果不存在此目录,请创建
    hdfs://<Namenode>:<Port>/tmp/cms
    目录或在要暂存数据的位置创建一个自定义目录。默认情况下,引用数据会暂存在
    hdfs://<Namenode>:<Port>/tmp/cms
    目录中。
  5. 再次应用数据集成服务。
  6. 打开 Analyst 工具或 Developer tool,并确保在第一次运行配置文件时选择所有数据域以暂存引用数据。
如果在第一次运行配置文件时没有选择所有数据域,之后又在下一次运行配置文件时选择了其他数据域,则配置文件运行将失败。