目录

Search

  1. 前言
  2. 命令行程序和实用程序
  3. 安装和配置命令行实用程序
  4. 使用命令行程序
  5. 命令行程序的环境变量
  6. 使用 infacmd
  7. infacmd as 命令引用
  8. infacmd aud 命令引用
  9. infacmd autotune 命令引用
  10. Infacmd bg 命令参考
  11. infacmd ccps 命令引用
  12. infacmd cluster 命令引用
  13. infacmd cms 命令引用
  14. infacmd dis 命令引用
  15. Infacmd dis 查询
  16. infacmd dp 命令引用
  17. infacmd idp 命令引用
  18. infacmd edp 命令引用
  19. Infacmd es 命令参考
  20. infacmd ics 命令引用
  21. infacmd ipc 命令引用
  22. infacmd isp 命令引用
  23. infacmd ldm 命令引用
  24. infacmd mas 命令引用
  25. infacmd mi 命令引用
  26. infacmd mrs 命令引用
  27. infacmd ms 命令引用
  28. infacmd oie 命令引用
  29. infacmd ps 命令引用
  30. infacmd pwx 命令引用
  31. infacmd roh 命令引用
  32. infacmd rms 命令参考
  33. infacmd rtm 命令引用
  34. infacmd sch 命令参考
  35. infacmd search 命令引用
  36. infacmd sql 命令引用
  37. infacmd tdm 命令引用
  38. infacmd tools 命令引用
  39. infacmd wfs 命令引用
  40. infacmd ws 命令引用
  41. infacmd xrf 命令引用
  42. infacmd 控制文件
  43. infasetup 命令引用
  44. pmcmd 命令引用
  45. pmrep 命令引用
  46. 使用 filemanager
  47. 处理 pmrep 文件

Hive 连接选项

Hive 连接选项

使用连接选项定义 Hive 连接。
按以下格式输入连接选项:
... -o option_name='value' option_name='value' ...
要输入多个选项,请使用空格将它们分隔开。
下表介绍了 infacmd isp CreateConnection 和 UpdateConnection 命令的 Hive 连接选项,您可在希望使用 Hive 连接时配置它们:
选项
说明
connectionType
必需。连接类型为 HIVE。
名称
连接的名称。名称不区分大小写,但在域中必须唯一。可以在创建连接后更改此属性。名称不能超出 128 个字符,也不能包含空格或以下特殊字符:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
environmentSQL
用于设置 Hadoop 环境的 SQL 命令。在本机环境类型中,数据集成服务会在每次创建与 Hive 元存储的连接时执行环境 SQL。如果使用 Hive 连接在 Hadoop 群集中运行映射,数据集成服务会在每个 Hive 会话开始时执行环境 SQL。
在两种连接模式下使用环境 SQL 时适用以下规则和指导原则:
  • 使用环境 SQL 指定 Hive 查询。
  • 使用环境 SQL 设置 Hive 用户定义的函数的类路径,然后使用环境 SQL 或 PreSQL 指定 Hive 用户定义的函数。不能在数据对象属性中使用 PreSQL 来指定类路径。如果使用 Hive 用户定义函数,则必须将 .jar 文件复制到以下目录中:
    <Informatica 安装目录>/services/shared/hadoop/<Hadoop 发行版名称>/extras/hive-auxjars
  • 也可以使用环境 SQL 来定义计划在 PreSQL 命令或自定义查询中使用的 Hadoop 或 Hive 参数。
如果使用 Hive 连接在 Hadoop 群集中运行映射,则仅会执行 Hive 连接的环境 SQL。即使 Hive 源和目标位于不同的群集上,也不会为 Hive 源或目标的连接执行不同的环境 SQL 命令。
quoteChar
用于标识特殊字符和预留的 SQL 关键字(例如 WHERE)的字符类型。数据集成服务会将选定字符放置在特殊字符和预留的 SQL 关键字的两旁。数据集成服务还会将该字符用于
支持混合大小写标识符
属性。
clusterConfigId
与 Hadoop 群集关联的群集配置 ID。必须输入配置 ID 才能设置 Hadoop 连接。

用于访问作为源或目标的 Hive 的属性

下表介绍了 infacmd isp CreateConnection 和 UpdateConnection 命令的必需选项,您可在希望使用 Hive 连接访问 Hive 数据时配置它们:
属性
说明
hiveJdbcDriverClassName
JDBC 驱动程序类的名称。
metadataConnString
用于访问 Hadoop 服务器中的元数据的 JDBC 连接 URI。
连接字符串采用以下格式:
jdbc:hive://<主机名>:<端口>/<db>
其中
  • hostname
    表示正在运行 Hive 服务器的计算机的名称或 IP 地址。
  • port
    表示 Hive 服务器用来执行侦听的端口。
  • db
    表示要连接到的数据库。如果未提供数据库详细信息,数据集成服务会使用默认的数据库详细信息。
要连接到 HiveServer 2,请使用 Apache Hive 为该特定 Hadoop 分发实施的连接字符串格式。有关 Apache Hive 连接字符串格式的详细信息,请参见 Apache Hive 文档。
如果 Hadoop 群集使用 SSL 或 TLS 身份验证,则必须将 ssl=true 添加到 JDBC 连接 URI 中。例如:
jdbc:hive2://<主机名>:<端口>/<db>;ssl=true
如果对 SSL 或 TLS 身份验证使用自签名证书,请确保该证书文件在客户端计算机和数据集成服务计算机上可用。有关详细信息,请参阅
《Informatica Big Data Management 群集集成指南》
bypassHiveJDBCServer
JDBC 驱动程序模式。启用此选项可使用嵌入式 JDBC 驱动程序(嵌入模式)。
要使用 JDBC 嵌入模式,请执行以下任务:
  • 验证 Hive 客户端与 Informatica 服务是否安装在同一台计算机上。
  • 将 Hive 连接属性配置为在 Hadoop 群集中运行映射。
如果选择非嵌入模式,则必须配置数据访问连接字符串。
首选模式为 JDBC 嵌入模式,而不是非嵌入模式。
sqlAuthorized
选择在 Hive 源中遵守细粒度 SQL 身份验证的选项时,映射会遵守行级别和列级别数据访问限制。如果没有选择此选项,Blaze 运行时引擎会忽略限制,并且结果将包括限制数据。
适用于启用了 Sentry 或 Ranger 安全模式的 Hadoop 群集。
connectString
用于访问 Hadoop 数据存储中的数据的连接字符串。非嵌入 JDBC 模式连接字符串必须采用以下格式:
jdbc:hive://<主机名>:<端口>/<db>
其中
  • hostname
    表示正在运行 Hive 服务器的计算机的名称或 IP 地址。
  • port
    表示 Hive 服务器用来执行侦听的端口。默认值为 10000。
  • db
    表示要连接到的数据库。如果未提供数据库详细信息,数据集成服务会使用默认的数据库详细信息。
要连接到 HiveServer 2,请使用 Apache Hive 为该特定 Hadoop 分发实施的连接字符串格式。有关 Apache Hive 连接字符串格式的详细信息,请参见 Apache Hive 文档。
如果 Hadoop 群集使用 SSL 或 TLS 身份验证,则必须将 ssl=true 添加到 JDBC 连接 URI 中。例如:
jdbc:hive2://<主机名>:<端口>/<db>;ssl=true
如果对 SSL 或 TLS 身份验证使用自签名证书,请确保该证书文件在客户端计算机和数据集成服务计算机上可用。有关详细信息,请参阅
《Informatica Big Data Management 群集集成指南》

用于在 Hadoop 群集中运行映射的属性

下表介绍了 infacmd isp CreateConnection 和 UpdateConnection 命令的必需选项,您可在希望使用 Hive 连接在 Hadoop 群集中运行 Informatica 映射时配置它们:
属性
说明
databaseName
表的命名空间。对于未指定数据库名称的表,请使用名称
default
customProperties
配置或替代运行数据集成服务的计算机上 hive-site.xml 配置集中的 Hive 或 Hadoop 群集属性。可以指定多个属性。
选择
编辑
,指定属性的名称和值。将按以下格式显示属性:
<属性 1>=<值>
指定多个属性时,
&:
将显示为分隔符。
该格式的最大长度为 1 MB。
如果为 Hive 连接输入必需属性,则该属性会替代在“高级 Hive/Hadoop 属性”中配置的属性。
数据集成服务会为每个 map-reduce 作业添加或设置这些属性。您可以在每个映射程序和缩减程序作业的 JobConf 中验证这些属性。从每个 map-reduce 作业下的 Jobtracker URL 中访问每个作业的 JobConf。
数据集成服务可将这些属性的消息写入数据集成服务日志。数据集成服务必须将日志跟踪级别设置为记录每一行,或者将日志跟踪级别设置为详细初始化跟踪。
例如,指定以下属性可控制并限制缩减程序的数量以运行映射作业:
mapred.reduce.tasks=2&:hive.exec.reducers.max=10
stgDataCompressionCodecClass
可在临时暂存表上启用数据压缩并提高性能的编解码器类名。与代码类型对应的编解码器类名。
stgDataCompressionCodecType
压缩编解码器类名的 Hadoop 压缩库。
可以选择“None”、“Zlib”、“Gzip”、“Snappy”、“Bz2”、“LZO”或“Custom”。
默认值为 None。