目录

Search

  1. 前言
  2. Informatica Developer
  3. 模型存储库
  4. Informatica Developer 中的搜索
  5. 连接
  6. 物理数据对象
  7. 平面文件数据对象
  8. 数据的逻辑视图
  9. 查看数据
  10. 应用程序部署
  11. 应用程序修补程序部署
  12. 应用程序修补程序部署示例
  13. 持续集成和持续交付 (CI/CD)
  14. 对象导入和导出
  15. 附录 , A: 数据类型参考
  16. 附录 , B: 键盘快捷方式
  17. 附录 , C: 连接属性

Developer tool 指南

Developer tool 指南

Hadoop 群集属性

Hadoop 群集属性

配置 Hadoop 连接属性可使数据集成服务和 Hadoop 群集之间相互通信。
下表介绍了 Hadoop 连接的常规连接属性:
属性
说明
名称
连接的名称。名称不区分大小写,但在域中必须唯一。可以在创建连接后更改此属性。名称不能超出 128 个字符,也不能包含空格或以下特殊字符:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
数据集成服务用来标识连接的字符串。ID 不区分大小写。不得超过 255 个字符,并且在域中必须唯一。不能在创建连接后更改此属性。默认值是连接名称。
说明
连接的说明。输入可用于标识连接的字符串。说明不得超过 4,000 个字符。
群集配置
与 Hadoop 环境关联的群集配置的名称。
如果未配置“云置备配置”,则此为必需属性。
云置备配置
与 Amazon AWS 或 Microsoft Azure 等云平台关联的云置备配置的名称。
如果未配置“群集配置”,则此为必需属性。
群集环境变量*
Hadoop 群集使用的环境变量。
如果使用 Cloudera CDH 6.x 群集或 Cloudera CDP 群集,请将区域设置配置为群集环境变量。在 Cloudera Manager 中,还必须将环境变量添加到以下 YARN 属性:
yarn.nodemanager.env-whitelist
例如,变量 ORACLE_HOME 表示 Oracle 数据库客户端软件的安装目录。
您可以在数据集成服务,Hadoop 连接和映射中配置 Hadoop 环境的运行时属性。通过在较低级别设置属性值,可以替代在较高级别配置的属性。例如,如果您在数据集成服务自定义属性中配置某个属性,则可以在 Hadoop 连接或映射中替代该属性。数据集成服务根据以下优先级来处理属性的替代:
  1. 使用
    infacmd ms runMapping
    -cp
    选项设置的映射自定义属性
  2. Hadoop 环境的映射运行时属性
  3. 运行时引擎的 Hadoop 连接高级属性
  4. Hadoop 连接高级常规属性、环境变量和类路径
  5. 数据集成服务自定义属性
当映射使用 Hive Server 2 运行作业或部分作业时,将无法替代在 preSQL 或 post-SQL 查询或 SQL 替代语句中的群集级别配置的属性。
解决方法:请勿尝试使用域上的群集配置来替代群集属性,而是将替代设置传递给 JDBC URL。例如:
beeline -u "jdbc:hive2://<域主机>:<端口号>/tpch_text_100" --hiveconf hive.execution.engine=tez
群集库路径*
群集上共享库的路径。
$DEFAULT_CLUSTER_LIBRARY_PATH 变量包含默认目录列表。
群集类路径*
用于访问 Hadoop jar 文件和所需库的类路径。
$DEFAULT_CLUSTER_CLASSPATH 变量包含默认 jar 文件和库的路径列表。
您可以在数据集成服务,Hadoop 连接和映射中配置 Hadoop 环境的运行时属性。通过在较低级别设置属性值,可以替代在较高级别配置的属性。例如,如果您在数据集成服务自定义属性中配置某个属性,则可以在 Hadoop 连接或映射中替代该属性。数据集成服务根据以下优先级来处理属性的替代:
  1. 使用
    infacmd ms runMapping
    -cp
    选项设置的映射自定义属性
  2. Hadoop 环境的映射运行时属性
  3. 运行时引擎的 Hadoop 连接高级属性
  4. Hadoop 连接高级常规属性、环境变量和类路径
  5. 数据集成服务自定义属性
当映射使用 Hive Server 2 运行作业或部分作业时,将无法替代在 preSQL 或 post-SQL 查询或 SQL 替代语句中的群集级别配置的属性。
解决方法:请勿尝试使用域上的群集配置来替代群集属性,而是将替代设置传递给 JDBC URL。例如:
beeline -u "jdbc:hive2://<域主机>:<端口号>/tpch_text_100" --hiveconf hive.execution.engine=tez
群集可执行路径*
群集上可执行文件的路径。
$DEFAULT_CLUSTER_EXEC_PATH 变量包含默认可执行文件的路径列表。
* Informatica 建议在更改这些属性值之前,先查阅第三方文档或 Informatica 文档或者咨询 Informatica 全球客户支持。如果在不了解属性的情况下更改属性值,则可能会导致性能降级或其他意外结果。