目录

Search

  1. 前言
  2. 第 部分: 1: Data Discovery 简介
  3. 第 部分: 2: 使用 Informatica Analyst 的 Data Discovery
  4. 第 部分: 3: 使用 Informatica Developer 执行数据发现
  5. 附录 , A: 基于剖析仓库连接的功能支持

Data Discovery 指南

Data Discovery 指南

从 Avro 或 Parquet 数据源创建复杂文件数据对象

从 Avro 或 Parquet 数据源创建复杂文件数据对象

可以从 Avro 和 Parquet 数据源创建访问类型为
文件
连接
的复杂文件数据对象。可以基于该数据对象创建列配置文件。
  1. 对象浏览器
    视图中,选择一个项目。
  2. 单击
    文件
    新建
    数据对象
    此时将显示
    新建
    对话框。
  3. 选择
    物理数据对象
    复杂文件数据对象
    ,然后单击
    下一步
    此时将显示
    新建复杂文件数据对象
    对话框。
  4. 输入数据对象的名称。
  5. 您可以选择访问类型为
    连接
    文件
    • 如果选择
      连接
      作为访问类型,请执行以下步骤:
      1. 单击
        浏览
        选择 HDFS 连接。
      2. 选择连接
        对话框中,选择数据源,然后单击
        确定
      3. 新建复杂文件数据对象
        对话框中,单击
        完成
        数据对象将显示在项目文件夹中。
    • 如果选择
      文件
      作为访问类型并选择
      二进制
      作为资源格式,请执行以下步骤:
      1. 单击
        浏览
        选择本地计算机上的 Avro 或 Parquet 文件。
      2. 新建复杂文件数据对象
        对话框中,单击
        完成
        数据对象将显示在项目文件夹中。
      3. 选择项目文件夹中的数据对象,然后单击
        数据对象操作
        视图。
      4. 数据对象操作
        视图中,单击
        读取
        高级
        选项卡。
      5. 高级
        选项卡中,在
        文件路径
        字段中输入 Linux 或 Windows 计算机上数据源的文件路径。
      6. 将文件格式输入为
        自定义输入
      7. 在 Avro 数据源的
        输入格式
        字段中输入
        com.informatica.avro.AvroToXML
        ,以及在 Parquet 数据源的
        输入格式
        字段中输入
        com.informatica.parquet.ParquetToXML
        。添加输入格式时,数据处理器转换会在运行时将 Avro 或 Parquet 格式的数据源处理并转换成 XML 格式数据源。
    • 如果选择
      文件
      作为访问类型并选择
      Avro
      Parquet
      作为资源格式,请执行以下步骤:
      1. 单击
        浏览
        选择本地计算机上的 Avro 或 Parquet 文件。
      2. 新建复杂文件数据对象
        对话框中,单击
        完成
        数据对象将显示在项目文件夹中。
      3. 创建数据对象后,导航到
        数据对象操作
        读取
        高级
        选项卡,然后确认
        文件路径
        字段中的文件路径是否与 Linux 或 Windows 计算机中的数据源对应。
      您只能为平面结构化 Avro 和 Parquet 数据源选择
      Avro
      Parquet
      资源格式。
      您可选择具有多个 Avro 或多个 Parquet 文件的文件夹来创建数据对象。创建数据对象后,导航到
      数据对象操作
      读取
      高级
      选项卡,然后验证
      文件路径
      字段中的文件路径是否指向 Linux 或 Windows 计算机中的数据源文件夹。