目录

Search

  1. 前言
  2. 命令行程序和实用程序
  3. 安装和配置命令行实用程序
  4. 使用命令行程序
  5. 命令行程序的环境变量
  6. 使用 infacmd
  7. infacmd as 命令引用
  8. infacmd aud 命令引用
  9. infacmd autotune 命令引用
  10. Infacmd bg 命令参考
  11. infacmd ccps 命令引用
  12. infacmd cluster 命令引用
  13. infacmd cms 命令引用
  14. infacmd dis 命令引用
  15. Infacmd dis 查询
  16. infacmd dp 命令引用
  17. infacmd idp 命令引用
  18. infacmd edp 命令引用
  19. Infacmd es 命令参考
  20. infacmd ics 命令引用
  21. infacmd ipc 命令引用
  22. infacmd isp 命令引用
  23. infacmd ldm 命令引用
  24. infacmd mas 命令引用
  25. infacmd mi 命令引用
  26. infacmd mrs 命令引用
  27. infacmd ms 命令引用
  28. infacmd oie 命令引用
  29. infacmd ps 命令引用
  30. infacmd pwx 命令引用
  31. infacmd roh 命令引用
  32. infacmd rms 命令参考
  33. infacmd rtm 命令引用
  34. infacmd sch 命令参考
  35. infacmd search 命令引用
  36. infacmd sql 命令引用
  37. infacmd tdm 命令引用
  38. infacmd tools 命令引用
  39. infacmd wfs 命令引用
  40. infacmd ws 命令引用
  41. infacmd xrf 命令引用
  42. infacmd 控制文件
  43. infasetup 命令引用
  44. pmcmd 命令引用
  45. pmrep 命令引用
  46. 使用 filemanager
  47. 处理 pmrep 文件

Hadoop 连接选项

Hadoop 连接选项

使用连接选项定义 Hadoop 连接。
按以下格式输入连接选项:
... -o option_name='value' option_name='value' ...
要输入多个选项,请使用空格将它们分隔开。
要输入高级属性,请使用以下格式:
... -o engine_nameAdvancedProperties="'advanced.property.name=value'"
例如:
... -o blazeAdvancedProperties="'infrgrid.orchestrator.svc.sunset.time=3'"
下表介绍了 infacmd isp CreateConnection 和 UpdateConnection 命令的 Hadoop 连接选项,您可在希望使用 Hadoop 连接时配置它们:
选项
说明
connectionId
数据集成服务用来标识连接的字符串。ID 不区分大小写。不得超过 255 个字符,并且在域中必须唯一。不能在创建连接后更改此属性。默认值是连接名称。
connectionType
必需。连接类型为 Hadoop。
名称
连接的名称。名称不区分大小写,但在域中必须唯一。可以在创建连接后更改此属性。名称不能超出 128 个字符,也不能包含空格或以下特殊字符:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
blazeJobMonitorURL
Blaze 作业监视器的主机名和端口号。
使用以下格式:
<主机名>:<端口>
其中
  • <hostname> 表示 Blaze 作业监视器服务器的主机名或 IP 地址。
  • <port> 表示 Blaze 作业监视器用来侦听远程过程调用 (RPC) 的端口。
例如,输入:
myhostname:9080
blazeYarnQueueName
由在群集上指定可用资源的 Blaze 引擎使用的 YARN 计划程序队列名称。该名称区分大小写。
blazeAdvancedProperties
Blaze 引擎特有的高级属性。
要输入多个属性,请使用以下文本分隔每个名称-值对:
&:
仅在 Informatica 全球客户支持部门要求时使用 Informatica 自定义属性。
blazeMaxPort
Blaze 引擎的端口号范围的最大值。
默认值为 12600
blazeMinPort
Blaze 引擎的端口号范围的最小值。
默认值为 12300
blazeUserName
Blaze 服务和 Blaze 服务日志的所有者。
当 Hadoop 群集使用 Kerberos 身份验证时,默认用户为数据集成服务 SPN 用户。当 Hadoop 群集不使用 Kerberos 身份验证并且未配置 Blaze 用户时,默认用户为数据集成服务用户。
blazeStagingDirectory
Blaze 引擎用于存储临时文件的目录的 HDFS 文件路径。验证目录是否存在。YARN 用户、Blaze 引擎用户以及映射模拟用户必须对此目录具有写入权限。
默认值为
/blaze/workdir
。如果清除此属性,则暂存文件会写入到 Hadoop 暂存目录
/tmp/blaze_<用户名>
clusterConfigId
与 Hadoop 群集关联的群集配置 ID。必须输入配置 ID 才能设置 Hadoop 连接。
hiveStagingDatabaseName
Hive 暂存表的命名空间。对于未指定数据库名称的表,请使用名称
default
engineType
用于在 Spark 引擎上运行 HiveServer2 任务的执行引擎。默认值为 MRv2。您可以选择 MRv2 或 Tez,具体取决于 Hadoop 发行版所使用的引擎类型:
  • Amazon EMR - Tez
  • Azure HDI - Tez
  • Cloudera CDH - MRv2
  • Cloudera CDP - Tez
  • Hortonworks HDP - Tez
  • MapR - MRv2
environmentSQL
用于设置 Hadoop 环境的 SQL 命令。数据集成服务在 Hive 执行计划中生成的每个 Hive 脚本开始时执行环境 SQL。
使用环境 SQL 时适用以下规则和准则:
  • 使用环境 SQL 指定 Hive 查询。
  • 使用环境 SQL 设置 Hive 用户定义的函数的类路径,然后使用环境 SQL 或 PreSQL 指定 Hive 用户定义的函数。不能在数据对象属性中使用 PreSQL 来指定类路径。如果使用 Hive 用户定义函数,则必须将 .jar 文件复制到以下目录中:
    <Informatica 安装目录>/services/shared/hadoop/<Hadoop 发行版名称>/extras/hive-auxjars
  • 可以使用环境 SQL 来定义要在 PreSQL 命令或自定义查询中使用的 Hadoop 或 Hive 参数。
hadoopExecEnvExecutionParameterList
对 Hadoop 连接唯一的自定义属性。
可以指定多个属性。
使用以下格式:
<属性 1>=<值>
要指定多个属性,请使用
&:
作为属性分隔符。
如果多个 Hadoop 连接与同一群集配置关联,您可以替代配置集属性值。
仅在 Informatica 全球客户支持部门要求时使用 Informatica 自定义属性。
hadoopRejDir
运行映射时,数据集成服务将拒绝文件移动到的远程目录。
使用 rejDirOnHadoop 启用拒绝目录。
impersonationUserName
如果 Hadoop 群集使用 Kerberos 身份验证,则为必需。Hadoop 模拟用户。数据集成服务模拟的用户名,用于在 Hadoop 环境中运行映射。
数据集成服务将根据所配置的用户运行映射。请按照以下顺序确定数据集成服务用来运行映射的用户:
  1. 操作系统配置文件用户。如果配置了配置文件用户,映射将以操作系统配置文件用户身份运行。如果没有任何操作系统配置文件用户,映射将以 Hadoop 模拟用户身份运行。
  2. Hadoop 模拟用户。如果未配置操作系统配置文件用户,映射将以 Hadoop 模拟用户身份运行。如果未配置 Hadoop 模拟用户,数据集成服务将使用数据集成服务用户运行映射。
  3. 数据集成服务用户。如果操作系统配置文件用户和 Hadoop 模拟用户均未配置,映射将以数据集成服务用户身份运行。
hiveWarehouseDirectoryOnHDFS
可选。群集本地仓库的默认数据库的绝对 HDFS 文件路径。
如果不配置 Hive 仓库目录,则 Hive 引擎首先会尝试写入到群集配置属性
hive.metastore.warehouse.dir
中指定的目录。如果群集配置不包含该属性,则 Hive 引擎会写入到默认目录
/user/hive/warehouse
metastoreDatabaseDriver
JDBC 数据存储的驱动程序类名称。例如,以下类名称指定了 MySQL 驱动程序:
com.mysql.jdbc.Driver
您可以从 hive-site.xml 中获取元存储数据库驱动程序的值。元存储数据库驱动程序在 hive-site.xml 中显示为以下属性:
<property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property>
metastoreDatabasePassword
元存储用户名的密码。
您可以从 hive-site.xml 中获取元存储数据库密码的值。元存储数据库密码在 hive-site.xml 中显示为以下属性:
<property> <name>javax.jdo.option.ConnectionPassword</name> <value>password</value> </property>
metastoreDatabaseURI
用于在本地元存储设置下访问数据存储的 JDBC 连接 URI。使用以下连接 URI:
jdbc:<数据存储类型>://<主机名>:<端口>/<数据存储名称>
其中
  • <节点名称> 表示数据存储的主机名或 IP 地址。
  • <数据存储类型> 表示数据存储的类型。
  • <端口> 表示数据存储用来侦听远程过程调用 (RPC) 的端口。
  • <数据库名称> 表示数据库的名称。
例如,以下 URI 将使用 MySQL 的本地元存储指定为数据存储:
jdbc:mysql://hostname23:3306/metastore
您可以从 hive-site.xml 中获取元存储数据库 URI 的值。元存储数据库 URI 在 hive-site.xml 中显示为以下属性:
<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://MYHOST/metastore</value> </property>
metastoreDatabaseUserName
元存储数据库用户名。
您可以从 hive-site.xml 中获取元存储数据库用户名的值。元存储数据库用户名在 hive-site.xml 中显示为以下属性:
<property> <name>javax.jdo.option.ConnectionUserName</name> <value>hiveuser</value> </property>
metastoreMode
连接到远程元存储还是本地元存储的控制机制。默认情况下,将选择本地元存储。连接到本地元存储时,必须指定元存储数据库 URI、元存储数据库驱动程序、用户名和密码。连接到远程元存储时,只需指定
远程元存储 URI
您可以从 hive-site.xml 中获取元存储执行模式的值。元存储执行模式在 hive-site.xml 中显示为以下属性:
<property> <name>hive.metastore.local</name> <value>true</true> </property>
对于 Hive 服务器版本 0.9 和更高版本,hive-site.xml 已弃用
hive.metastore.local
属性。如果
hive.metastore.local
属性不存在,但
hive.metastore.uris
属性存在,并且您知道 Hive 服务器已启动,则可设置与远程元存储的连接。
remoteMetastoreURI
用于在远程元存储设置下访问元数据的元存储 URI。对于远程元存储,必须指定 Thrift 服务器详细信息。
使用以下连接 URI:
thrift://<主机名>:<端口>
其中
  • <hostname> 表示 Thrift 元存储服务器的名称或 IP 地址。
  • <port> 表示 Thrift 服务器用来执行侦听的端口。
例如,输入:
thrift://myhostname:9083/
您可以从 hive-site.xml 中获取远程元存储 URI 的值。远程元存储 URI 在 hive-site.xml 中显示为以下属性:
<property> <name>hive.metastore.uris</name> <value>thrift://<n.n.n.n>:9083</value> <description> IP address or fully-qualified domain name and port of the metastore host</description> </property>
rejDirOnHadoop
启用 hadoopRejDir。用于指定运行映射时将拒绝文件移动到的位置。
如果启用,数据集成服务会将映射文件移动到 hadoopRejDir 中列出的 HDFS 位置。
默认情况下,数据集成服务会根据 RejectDir 系统参数存储映射文件。
sparkEventLogDir
可选。Spark 引擎用来记录事件的目录的 HDFS 文件路径。
sparkAdvancedProperties
Spark 引擎特有的高级属性。
要输入多个属性,请使用以下文本分隔每个名称-值对:
&:
仅在 Informatica 全球客户支持部门要求时使用 Informatica 自定义属性。
sparkStagingDirectory
Spark 引擎用于存储运行作业的临时文件的目录的 HDFS 文件路径。YARN 用户、数据集成服务用户和映射模拟用户对该目录必须拥有写入权限。
默认情况下,临时文件会写入到 Hadoop 暂存目录
/tmp/spark_<用户名>
sparkYarnQueueName
Spark 引擎用来指定群集上的可用资源的 YARN 计划程序队列名称。该名称区分大小写。
stgDataCompressionCodecClass
可在临时暂存表上启用数据压缩并提高性能的编解码器类名。与代码类型对应的编解码器类名。
stgDataCompressionCodecType
压缩编解码器类名的 Hadoop 压缩库。
可以选择“None”、“Zlib”、“Gzip”、“Snappy”、“Bz2”、“LZO”或“Custom”。
默认值为 None。