目录

Search

  1. Data Discovery 简介
  2. 使用 Informatica Analyst 的 Data Discovery
  3. 使用 Informatica Developer 执行数据发现

Data Discovery 指南

Data Discovery 指南

创建基于 Avro 或 Parquet 数据源的数据对象

创建基于 Avro 或 Parquet 数据源的数据对象

您可以为访问类型为
文件
连接
的 Avro 和 Parquet 数据源创建复杂物理数据对象。您可以在该物理数据对象上创建列配置文件。
  1. 对象浏览器
    视图中,选择一个项目。
  2. 单击
    文件
    新建
    数据对象
    此时将显示
    新建
    对话框。
  3. 选择
    物理数据对象
    复杂文件数据对象
    ,然后单击
    下一步
    此时将显示
    新建复杂文件数据对象
    对话框。
  4. 输入数据对象的名称。
  5. 您可以选择访问类型为
    连接
    文件
    • 如果选择访问类型为
      连接
      ,请执行以下任务:
      1. 单击
        浏览
        选择 HDFS 连接。
        此时将显示
        选择连接
        对话框。
      2. 选择连接
        对话框中,选择数据源,然后单击
        确定
      3. 新建复杂文件数据对象
        对话框中,单击
        完成
        数据对象将显示在项目文件夹中。
    • 如果将访问类型选为
      文件
      并将资源格式选为
      二进制
      ,则请执行以下任务:
      1. 单击
        浏览
        选择本地计算机上的 Avro 或 Parquet 文件。
      2. 新建复杂文件数据对象
        对话框中,单击
        完成
        数据对象将显示在项目文件夹中。
      3. 选择项目文件夹中的数据对象,然后单击
        数据对象操作
        视图。
      4. 数据对象操作
        视图中,单击
        读取
        高级
        选项卡。
      5. 高级
        选项卡中,在
        文件路径
        字段中输入 Linux 或 Windows 计算机上数据源的文件路径。
      6. 将文件格式输入为
        自定义输入
      7. 在 Avro 数据源的
        输入格式
        字段中输入
        com.informatica.avro.AvroToXML
        ,以及在 Parquet 数据源的
        输入格式
        字段中输入
        com.informatica.parquet.ParquetToXML
        。添加输入格式时,数据处理器转换会在运行时将 Avro 或 Parquet 格式的数据源处理并转换成 XML 格式数据源。
    • 如果将访问类型选为
      文件
      并将资源格式选为
      Avro
      Parquet
      ,则请执行以下任务:
      1. 单击
        浏览
        选择本地计算机上的 Avro 或 Parquet 文件。
      2. 新建复杂文件数据对象
        对话框中,单击
        完成
        数据对象将显示在项目文件夹中。
      3. 创建数据对象后,导航到
        数据对象操作
        读取
        高级
        选项卡,然后确认
        文件路径
        字段中的文件路径是否与 Linux 或 Windows 计算机中的数据源对应。
      您只能为平面结构化 Avro 和 Parquet 数据源选择
      Avro
      Parquet
      资源格式。
      您可选择具有多个 Avro 或多个 Parquet 文件的文件夹来创建数据对象。创建数据对象后,导航到
      数据对象操作
      读取
      高级
      选项卡,然后确认
      文件路径
      字段中的文件路径是否与 Linux 或 Windows 计算机中的数据源文件夹对应。