目录

Search

  1. 前言
  2. 命令行程序和实用程序
  3. 安装和配置命令行实用程序
  4. 使用命令行程序
  5. 命令行程序的环境变量
  6. 使用 infacmd
  7. infacmd as 命令引用
  8. infacmd aud 命令引用
  9. Infacmd bg 命令参考
  10. infacmd cms 命令引用
  11. infacmd dis 命令引用
  12. Infacmd es 命令参考
  13. infacmd ihs 命令参考
  14. infacmd ipc 命令引用
  15. infacmd isp 命令引用
  16. infacmd ldm 命令参考
  17. infacmd mrs 命令引用
  18. infacmd ms 命令引用
  19. infacmd oie 命令引用
  20. infacmd ps 命令引用
  21. infacmd pwx 命令引用
  22. infacmd rms 命令参考
  23. infacmd rtm 命令引用
  24. infacmd sch 命令参考
  25. infacmd search 命令引用
  26. infacmd sql 命令引用
  27. infacmd tdm 命令引用
  28. infacmd wfs 命令引用
  29. infacmd ws 命令引用
  30. infacmd xrf 命令引用
  31. infacmd 控制文件
  32. infasetup 命令引用
  33. pmcmd 命令引用
  34. pmrep 命令引用
  35. 处理 pmrep 文件
  36. POWERCENTERHELP
  37. 已弃用的命令

Hadoop 连接选项

Hadoop 连接选项

使用连接选项定义 Hive 连接。
按以下格式输入连接选项:
... -o option_name='value' option_name='value' ...
要输入多个选项,请使用空格将它们分隔开。
下表介绍了 infacmd isp CreateConnection 和 UpdateConnection 命令的 Hadoop 连接选项,您可在希望使用 Hadoop 连接时配置它们:
选项
说明
connectionId
数据集成服务用来标识连接的字符串。ID 不区分大小写。不得超过 255 个字符,并且在域中必须唯一。不能在创建连接后更改此属性。默认值是连接名称。
connectionType
必需。 连接类型为 Hadoop。
name
连接的名称。名称不区分大小写,但在域中必须唯一。可以在创建连接后更改此属性。名称不能超出 128 个字符,也不能包含空格或以下特殊字符:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
RMAddress
Hadoop 中提交资源的请求或生成 YARN 应用程序的服务。
使用以下格式:
<主机名>:<端口>
其中
  • <hostname> 表示 Yarn 资源管理器的主机名或 IP 地址。
  • <port> 表示 Yarn 资源管理器用来侦听远程过程调用 (RPC) 的端口。
例如,输入:
myhostame:8032
您还可以从位于 Hadoop 群集的以下目录中的 yarn-site.xml 中获取资源管理器地址属性。
/etc/hadoop/conf/
资源管理器地址在 yarn-site.xml 中显示为以下属性:
<property> <name>yarn.resourcemanager.address</name> <value>hostname:port</value> <description>The address of the applications manager interface in the Resource Manager.</description> </property>
此外,如果未在 yarn-site.xml 中配置
yarn.resourcemanager.address
属性,您可以从 yarn-site.xml 中的
yarn.resourcemanager.hostname
yarn.resourcemanager.scheduler.address
属性中找到主机名。 然后,可以使用以下值在 Hadoop 连接中配置资源管理器地址:
hostname:8032
cadiAppYarnQueueName
由在群集上指定可用资源的 Blaze 引擎使用的 YARN 计划程序队列名称。 该名称区分大小写。
cadiExecutionParameterList
对 Blaze 引擎唯一的自定义属性。
可以指定多个属性。
使用以下格式:
<property1>=<value>
其中
  • <property1> 表示 Blaze 引擎优化属性。
  • <value> 表示 Blaze 引擎优化属性的值。
要指定多个属性,请使用
&:
作为属性分隔符。
仅在 Informatica 全球客户支持部门要求时使用自定义属性。
cadiMaxPort
Blaze 引擎的端口号范围的最大值。
cadiMinPort
Blaze 引擎的端口号范围的最小值。
cadiUserName
Blaze 引擎的操作系统配置文件用户名。
cadiWorkingDirectory
Blaze 引擎用于存储临时文件的目录的 HDFS 文件路径。 验证目录是否存在。 YARN 用户、Blaze 引擎用户以及映射模拟用户必须对此目录具有写入权限。
databaseName
表的命名空间。对于未指定数据库名称的表,请使用名称
default
defaultFSURI
用于访问默认的 Hadoop 分布式文件系统的 URI。
使用以下连接 URI:
hdfs://<主机名>:<端口>
其中
  • <node name> 表示 NameNode 的主机名或 IP 地址。
  • <port> 表示 NameNode 用来侦听远程过程调用 (RPC) 的端口。
例如,输入:
hdfs://myhostname:8020/
您还可以从位于 Hadoop 群集的以下目录中的 core-site.xml 中获取默认文件系统 URL 属性。
/etc/hadoop/conf/
使用在 core-site.xml 中找到的
fs.defaultFS
属性中的值。
例如,使用以下值:
<property> <name>fs.defaultFS</name> <value>hdfs://localhost:8020</value> </property>
如果 Hadoop 群集运行 MapR,请使用以下 URI 来访问 MapR 文件系统:
maprfs:///
.
engineType
Hadoop 环境用于在 Hadoop 群集上运行映射的引擎。 从下拉列表中选择一个值。
例如,选择:
MRv2
要设置 Hadoop 连接中的引擎类型,您必须从位于 Hadoop 群集的以下目录中的 mapred-site.xml 中获得
mapreduce.framework.name
属性的值。
/etc/hadoop/conf/
如果
mapreduce.framework.name
的值为
classic
,请选择
mrv1
作为 Hadoop 连接中的引擎类型。
如果
mapreduce.framework.name
的值为
yarn
,可以选择
mrv2
tez
作为 Hadoop 连接中的引擎类型。 如果没有为 Hadoop 群集配置 Tez,请不要选择 Tez。
您还可以在 hive-site.xml 中设置引擎类型的值。 引擎类型在 hive-site.xml 中显示为以下属性:
<property> <name>hive.execution.engine</name> <value>tez</value> <description>Chooses execution engine. Options are: mr (MapReduce, default) or tez (Hadoop 2 only)</description> </property>
environmentSQL
用于设置 Hadoop 环境的 SQL 命令。 数据集成服务在 Hive 执行计划中生成的每个 Hive 脚本开始时执行环境 SQL。
使用环境 SQL 时适用以下规则和准则:
  • 使用环境 SQL 指定 Hive 查询。
  • 使用环境 SQL 设置 Hive 用户定义的函数的类路径,然后使用环境 SQL 或 PreSQL 指定 Hive 用户定义的函数。不能在数据对象属性中使用 PreSQL 来指定类路径。路径必须为指向 JAR 文件(用于用户定义的函数)的完全限定路径。使用 infapdo.aux.jars.path 中的所有条目以及指向 JAR 文件(用于用户定义的函数)的路径来设置参数 hive.aux.jars.path。
  • 可以使用环境 SQL 来定义要在 PreSQL 命令或自定义查询中使用的 Hadoop 或 Hive 参数。
hadoopExecEnvExecutionParameterList
对 Hadoop 环境唯一的自定义属性。
可以指定多个属性。
使用以下格式:
<property1>=<value>
其中
  • <property1> 表示 Hadoop 环境优化属性。
  • <value> 表示 Hadoop 环境优化属性的值。
要指定多个属性,请使用
&:
作为属性分隔符。
仅在 Informatica 全球客户支持部门要求时使用自定义属性。
hiveWarehouseDirectoryOnHDFS
仓库(此仓库对群集来说属于本地仓库)的默认数据库的绝对 HDFS 文件路径。例如,以下文件路径指定了本地仓库:
/user/hive/warehouse
对于 Cloudera CDH,如果“元存储执行模式”为远程,则文件路径必须与 Hive 元存储服务在 Hadoop 群集上指定的文件路径匹配。
您可以从位于 Hadoop 群集的以下目录中的 hive-site.xml 的
hive.metastore.warehouse.dir
属性获取 HDFS 上的 Hive 仓库目录的值:
/etc/hadoop/conf/
例如,使用以下值:
<property> <name>hive.metastore.warehouse.dir</name> <value>/usr/hive/warehouse </value> <description>location of the warehouse directory</description> </property>
对于 MapR,
hive-site.xml
位于以下目录中:
/opt/mapr/hive/<hive version>/conf
.
jobMonitoringURL
MapReduce JobHistory 服务器的 URL。 如果使用 MapReduce 版本 1,则可将该 URL 用于 JobTracker URI。
使用以下格式:
<主机名>:<端口>
其中
  • <hostname> 表示 JobHistory 服务器的主机名或 IP 地址。
  • <port> 表示 JobHistory 服务器用来侦听远程过程调用 (RPC) 的端口。
例如,输入:
myhostname:8021
您可以从 mapred-site.xml 中获取作业监视 URL 的值。 作业监视 URL 在 mapred-site.xml 中显示为以下属性:
<property> <name>mapred.job.tracker</name> <value>myhostname:8021 </value> <description>The host and port that the MapReduce job tracker runs at.</description> </property>
metastoreDatabaseDriver
JDBC 数据存储的驱动程序类名称。例如,以下类名称指定了 MySQL 驱动程序:
com.mysql.jdbc.Driver
您可以从 hive-site.xml 中获取元存储数据库驱动程序的值。 元存储数据库驱动程序在 hive-site.xml 中显示为以下属性:
<property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property>
metastoreDatabasePassword
元存储用户名的密码。
您可以从 hive-site.xml 中获取元存储数据库密码的值。 元存储数据库密码在 hive-site.xml 中显示为以下属性:
<property> <name>javax.jdo.option.ConnectionPassword</name> <value>password</value> </property>
metastoreDatabaseURI
用于在本地元存储设置下访问数据存储的 JDBC 连接 URI。使用以下连接 URI:
jdbc:<数据存储类型>://<主机名>:<端口>/<数据存储名称>
其中
  • <node name> 表示数据存储的主机名或 IP 地址。
  • <data store type> 表示数据存储的类型。
  • <port> 表示数据存储用来侦听远程过程调用 (RPC) 的端口。
  • <database name> 表示数据库的名称。
例如,以下 URI 将使用 MySQL 的本地元存储指定为数据存储:
jdbc:mysql://hostname23:3306/metastore
您可以从 hive-site.xml 中获取元存储数据库 URI 的值。 元存储数据库 URI 在 hive-site.xml 中显示为以下属性:
<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://MYHOST/metastore</value> </property>
metastoreDatabaseUserName
元存储数据库用户名。
您可以从 hive-site.xml 中获取元存储数据库用户名的值。 元存储数据库用户名在 hive-site.xml 中显示为以下属性:
<property> <name>javax.jdo.option.ConnectionUserName</name> <value>hiveuser</value> </property>
metastoreMode
连接到远程元存储还是本地元存储的控制机制。默认情况下,将选择本地元存储。连接到本地元存储时,必须指定元存储数据库 URI、元存储数据库驱动程序、用户名和密码。 连接到远程元存储时,只需指定
远程元存储 URI
您可以从 hive-site.xml 中获取元存储执行模式的值。 元存储执行模式在 hive-site.xml 中显示为以下属性:
<property> <name>hive.metastore.local</name> <value>true</true> </property>
对于 Hive 服务器版本 0.9 和更高版本,hive-site.xml 已弃用
hive.metastore.local
属性。 如果
hive.metastore.local
属性不存在,但
hive.metastore.uris
属性存在,并且您知道 Hive 服务器已启动,则可设置与远程元存储的连接。
remoteMetastoreURI
用于在远程元存储设置下访问元数据的元存储 URI。对于远程元存储,必须指定 Thrift 服务器详细信息。
使用以下连接 URI:
thrift://<主机名>:<端口>
其中
  • <hostname> 表示 Thrift 元存储服务器的名称或 IP 地址。
  • <port> 表示 Thrift 服务器用来执行侦听的端口。
例如,输入:
thrift://myhostname:9083/
您可以从 hive-site.xml 中获取远程元存储 URI 的值。 远程元存储 URI 在 hive-site.xml 中显示为以下属性:
<property> <name>hive.metastore.uris</name> <value>thrift://<n.n.n.n>:9083</value> <description> IP address or fully-qualified domain name and port of the metastore host</description> </property>
stgDataCompressionCodecClass
可在临时暂存表上启用数据压缩并提升性能的编解码器类名。
stgDataCompressionCodecType
压缩编解码器类名的 Hadoop 压缩库。