目录

Search

  1. 前言
  2. Informatica Developer
  3. 模型存储库
  4. Informatica Developer 中的搜索
  5. 连接
  6. 物理数据对象
  7. 平面文件数据对象
  8. 数据的逻辑视图
  9. 查看数据
  10. 应用程序部署
  11. 应用程序修补程序部署
  12. 应用程序修补程序部署示例
  13. 持续集成和持续交付 (CI/CD)
  14. 对象导入和导出
  15. 附录 , A: 数据类型参考
  16. 附录 , B: 键盘快捷方式
  17. 附录 , C: 连接属性

Developer tool 指南

Developer tool 指南

常见属性

常见属性

下表介绍了可为 Hadoop 连接配置的通用连接属性:
属性
说明
模拟用户名
如果 Hadoop 群集使用 Kerberos 身份验证,则为必需。Hadoop 模拟用户。数据集成服务模拟的用户名,用于在 Hadoop 环境中运行映射。
Data Engineering Integration 支持所有 Hadoop 发行版的操作系统配置文件。在 Hadoop 运行时环境中,数据集成服务将处理推送到 Hadoop 群集,运行时引擎使用操作系统配置文件指定的 Hadoop 模拟属性运行映射。
临时表压缩编解码器
压缩编解码器类名的 Hadoop 压缩库。
Spark 引擎不支持临时表的压缩设置。在 Spark 引擎上运行映射时,Spark 引擎会采用未压缩文件格式存储临时表。
编解码器类名
可在临时暂存表上启用数据压缩并提高性能的编解码器类名。
Hive 暂存数据库名称
Hive 暂存表的命名空间。对于未指定数据库名称的表,请使用名称
default
如果您未配置命名空间,则数据集成服务将使用 Hive 目标连接中的 Hive 数据库名称来创建暂存表。
在本地环境中运行映射以将数据写入到 Hive 中时,必须在 Hive 连接中配置 Hive 暂存数据库名称。数据集成服务将忽略在 Hadoop 连接中配置的值。
环境 SQL
用于设置 Hadoop 环境的 SQL 命令。数据集成服务在 HiveServer2 作业生成的每个 Hive 脚本开始时执行环境 SQL。
使用环境 SQL 时适用以下规则和准则:
  • 可以使用环境 SQL 来定义要在 PreSQL 命令或自定义查询中使用的 Hadoop 或 Hive 参数。
  • 如果为环境 SQL 属性使用多个值,请确保这些值之间没有空格。
引擎类型
数据集成服务通过在 Spark 引擎上运行 HiveServer2 任务,使用 HiveServer2 来处理一些作业的某些部分。通过 Administrator 工具导入群集配置时,可以选择创建连接。系统会根据发行版默认填充引擎类型属性。
手动创建连接时,必须配置引擎类型。
可以根据以下 Hadoop 发行版指定引擎类型:
  • Amazon EMR. Tez
  • Azure HDI. Tez
  • Cloudera CDH. MRv2
  • Cloudera CDP. Tez
  • Dataproc. MRv2
  • Hortonworks HDP. Tez
  • MapR. MRv2
高级属性
Hadoop 环境特有的高级属性的列表。这些属性通用于 Blaze 和 Spark 引擎。高级属性包括一组默认属性。
您可以在数据集成服务,Hadoop 连接和映射中配置 Hadoop 环境的运行时属性。通过在较低级别设置属性值,可以替代在较高级别配置的属性。例如,如果您在数据集成服务自定义属性中配置某个属性,则可以在 Hadoop 连接或映射中替代该属性。数据集成服务根据以下优先级来处理属性的替代:
  1. 使用
    infacmd ms runMapping
    -cp
    选项设置的映射自定义属性
  2. Hadoop 环境的映射运行时属性
  3. 运行时引擎的 Hadoop 连接高级属性
  4. Hadoop 连接高级常规属性、环境变量和类路径
  5. 数据集成服务自定义属性
Informatica 建议在更改这些属性值之前,先查阅第三方文档或 Informatica 文档或者咨询 Informatica 全球客户支持。如果在不了解属性的情况下更改属性值,则可能会导致性能降级或其他意外结果。