目录

Search

  1. 前言
  2. 了解域
  3. 管理您的帐户
  4. 使用 Informatica Administrator
  5. 使用“域”视图
  6. 域管理
  7. 节点
  8. 高可用性
  9. 连接
  10. 连接属性
  11. 计划
  12. 域对象导出和导入
  13. 许可证管理
  14. 监视
  15. 日志管理
  16. 域报告
  17. 节点诊断
  18. 了解全球化
  19. 代码页
  20. 自定义角色
  21. Informatica 平台连接
  22. 配置 Web 浏览器

管理员指南

管理员指南

Hive 连接属性

Hive 连接属性

使用 Hive 连接可访问 Hive 数据。Hive 连接属于数据库类型连接。您可以在 Administrator 工具、Analyst 工具或 Developer tool 中创建和管理 Hive 连接。Hive 连接属性区分大小写,另有说明除外。
连接属性的顺序可能会因查看属性所用的工具而异。
下表介绍了 Hive 连接属性:
属性
说明
名称
连接的名称。名称不区分大小写,但在域中必须唯一。可以在创建连接后更改此属性。名称不能超出 128 个字符,也不能包含空格或以下特殊字符:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
数据集成服务用来标识连接的字符串。ID 不区分大小写。不得超过 255 个字符,并且在域中必须唯一。不能在创建连接后更改此属性。默认值是连接名称。
说明
连接的说明。说明不得超过 4000 个字符。
位置
要在其中创建连接的域。对 Analyst 工具不适用。
类型
连接类型。选择 Hive。
LDAP 用户名
数据集成服务模拟的用户的 LDAP 用户名,用于在 Hadoop 群集中运行映射。该用户名取决于在元数据连接字符串或数据访问连接字符串中为本机环境指定的 JDBC 连接字符串。
如果 Hadoop 群集使用 Kerberos 身份验证,则 JDBC 连接字符串的主体名称必须与用户名相同。否则,用户名将取决于 JDBC 驱动程序的行为。使用 Hive JDBC 驱动程序时,您可以通过多种方法指定用户名,而且用户名可以成为 JDBC URL 的一部分。
如果 Hadoop 群集不使用 Kerberos 身份验证,则用户名将取决于 JDBC 驱动程序的行为。
如果不指定用户名,则 Hadoop 群集会根据以下条件对作业进行身份验证:
  • Hadoop 群集不使用 Kerberos 身份验证。它根据运行数据集成服务的计算机的操作系统配置文件用户名对作业进行身份验证。
  • Hadoop 群集 Kerberos 身份验证。它根据数据集成服务的 SPN 对作业进行身份验证。将忽略 LDAP 用户名。
密码
LDAP 用户名的密码。
环境 SQL
用于设置 Hadoop 环境的 SQL 命令。在本机环境类型中,数据集成服务会在每次创建与 Hive 元存储的连接时执行环境 SQL。如果使用 Hive 连接在 Hadoop 群集上运行配置文件,则数据集成服务会在每个 Hive 会话开始时执行环境 SQL。
在两种连接模式下使用环境 SQL 时适用以下规则和准则:
  • 使用环境 SQL 指定 Hive 查询。
  • 使用环境 SQL 设置 Hive 用户定义的函数的类路径,然后使用环境 SQL 或 PreSQL 指定 Hive 用户定义的函数。不能在数据对象属性中使用 PreSQL 来指定类路径。如果使用 Hive 用户定义函数,则必须将 .jar 文件复制到以下目录中:
    <Informatica 安装目录>/services/shared/hadoop/<Hadoop 发行版名称>/extras/hive-auxjars
  • 可以使用环境 SQL 来定义要在 PreSQL 命令或自定义查询中使用的 Hadoop 或 Hive 参数。
  • 如果为环境 SQL 属性使用多个值,请确保这些值之间没有空格。
SQL 标识符字符
用于标识特殊字符和预留的 SQL 关键字(例如 WHERE)的字符类型。数据集成服务会将选定字符放置在特殊字符和预留的 SQL 关键字的两旁。数据集成服务还会将该字符用于
支持混合大小写标识符
属性。

用于访问作为源或目标的 Hive 的属性

下表介绍了配置为访问作为源或目标的 Hive 的连接属性:
属性
说明
JDBC 驱动程序类名称
Hive JDBC 驱动程序类的名称。如果将此选项留空,则 Developer tool 将使用随发行版一起提供的默认 Apache Hive JDBC 驱动程序。如果默认的 Apache Hive JDBC 驱动程序并不符合您的要求,可以通过指定驱动程序类名来将 Apache Hive JDBC 驱动程序替代为第三方 Hive JDBC 驱动程序。
元数据连接字符串
用于访问 Hadoop 服务器中的元数据的 JDBC 连接 URI。
可以使用 PowerExchange for Hive 与 HiveServer 服务或 HiveServer2 服务进行通信。要连接到 HiveServer,请使用以下格式指定连接字符串:
jdbc:hive2://<hostname>:<port>/<db>
其中
  • <hostname> 表示运行 HiveServer2 的计算机的名称或 IP 地址。
  • <port> 表示 HiveServer2 用来执行侦听的端口号。
  • <db> 表示要连接到的数据库的名称。如果未提供数据库名称,数据集成服务会使用默认的数据库详细信息。
要连接到 HiveServer2,请使用 Apache Hive 为该特定 Hadoop 发行版实施的连接字符串格式。有关 Apache Hive 连接字符串格式的详细信息,请参见 Apache Hive 文档。
对于用户模拟,必须将
hive.server2.proxy.user=<xyz>
添加到 JDBC 连接 URI 中。如果不配置用户模拟,则会使用当前用户的凭据来连接到 HiveServer2。
如果 Hadoop 群集使用 SSL 或 TLS 身份验证,您必须将
ssl=true
添加到 JDBC 连接 URI。例如:
jdbc:hive2://<主机名>:<端口>/<db>;ssl=true
如果对 SSL 或 TLS 身份验证使用自签名证书,请确保该证书文件在客户端计算机和数据集成服务计算机上可用。有关详细信息,请参阅
Data Engineering Integration 指南
绕过 Hive JDBC 服务器
JDBC 驱动程序模式。要使用 JDBC 驱动程序嵌入模式,请选中此复选框。
要使用 JDBC 嵌入模式,请执行以下任务:
  • 验证 Hive 客户端与 Informatica 服务是否安装在同一台计算机上。
  • 将 Hive 连接属性配置为在 Hadoop 群集上运行映射。
如果选择非嵌入模式,则必须配置数据访问连接字符串。
Informatica 建议使用 JDBC 嵌入模式。
查找粒度授权
如果选择此选项以遵守 Hive 源中的细粒度授权,映射将遵守:
  • 行列级限制。适用于启用了 Sentry 或 Ranger 安全模式的 Hadoop 群集。
  • 数据屏蔽规则。应用于 Dynamic Data Masking 为包含敏感数据的列设置的屏蔽规则。
如果没有选择此选项,Blaze 和 Spark 引擎会忽略限制和屏蔽规则,并且结果将包括限制或敏感数据。
数据访问连接字符串
用于访问 Hadoop 数据存储中的数据的连接字符串。要连接到 HiveServer,请使用以下格式指定非嵌入 JDBC 模式连接字符串:
jdbc:hive2://<hostname>:<port>/<db>
其中
  • <hostname> 表示运行 HiveServer2 的计算机的名称或 IP 地址。
  • <port> 表示 HiveServer2 用来执行侦听的端口号。
  • <db> 表示要连接到的数据库。如果未提供数据库名称,数据集成服务会使用默认的数据库详细信息。
要连接到 HiveServer2,请使用 Apache Hive 为该特定 Hadoop 发行版实施的连接字符串格式。有关 Apache Hive 连接字符串格式的详细信息,请参见 Apache Hive 文档。
对于用户模拟,必须将
hive.server2.proxy.user=<xyz>
添加到 JDBC 连接 URI 中。如果不配置用户模拟,则会使用当前用户的凭据来连接到 HiveServer2。
如果 Hadoop 群集使用 SSL 或 TLS 身份验证,您必须将
ssl=true
添加到 JDBC 连接 URI。例如:
jdbc:hive2://<主机名>:<端口>/<db>;ssl=true
如果对 SSL 或 TLS 身份验证使用自签名证书,请确保该证书文件在客户端计算机和数据集成服务计算机上可用。有关详细信息,请参阅
Data Engineering Integration 指南
HDFS 上的 Hive 暂存目录
Hive 暂存表的 HDFS 目录。必须为 Hadoop 模拟用户和映射模拟用户授予执行权限。
在本地环境中将数据写入到 Hive 目标时,此选项适用且必需。
Hive 暂存数据库名称
Hive 暂存表的命名空间。
Hive 暂存数据库名称自动从数据访问连接字符串更新。如果要替代默认名称,您需要在 Hive 连接中配置 Hive 暂存数据库名称。
在本地环境中运行映射以将数据写入到 Hive 目标中时,此选项适用。
如果在 Blaze 或 Spark 引擎上运行映射,则无需在 Hive 连接中配置 Hive 暂存数据库名称。数据集成服务使用在 Hadoop 连接中配置的值。