Informatica Data Quality
- Informatica Data Quality 10.5
- 所有产品
选项
| 说明
|
---|---|
connectionType
| 必需。连接类型为 HIVE。
|
名称
| 连接的名称。名称不区分大小写,但在域中必须唯一。可以在创建连接后更改此属性。名称不能超出 128 个字符,也不能包含空格或以下特殊字符:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
|
environmentSQL
| 用于设置 Hadoop 环境的 SQL 命令。在本机环境类型中,数据集成服务会在每次创建与 Hive 元存储的连接时执行环境 SQL。如果使用 Hive 连接在 Hadoop 群集中运行映射,数据集成服务会在每个 Hive 会话开始时执行环境 SQL。
在两种连接模式下使用环境 SQL 时适用以下规则和指导原则:
如果使用 Hive 连接在 Hadoop 群集中运行映射,则仅会执行 Hive 连接的环境 SQL。即使 Hive 源和目标位于不同的群集上,也不会为 Hive 源或目标的连接执行不同的环境 SQL 命令。
|
quoteChar
| 用于标识特殊字符和预留的 SQL 关键字(例如 WHERE)的字符类型。数据集成服务会将选定字符放置在特殊字符和预留的 SQL 关键字的两旁。数据集成服务还会将该字符用于 支持混合大小写标识符 属性。
|
clusterConfigId
| 与 Hadoop 群集关联的群集配置 ID。必须输入配置 ID 才能设置 Hadoop 连接。
|
属性
| 说明
|
---|---|
hiveJdbcDriverClassName
| JDBC 驱动程序类的名称。
|
metadataConnString
| 用于访问 Hadoop 服务器中的元数据的 JDBC 连接 URI。
连接字符串采用以下格式:
jdbc:hive://<主机名>:<端口>/<db>
其中
要连接到 HiveServer 2,请使用 Apache Hive 为该特定 Hadoop 分发实施的连接字符串格式。有关 Apache Hive 连接字符串格式的详细信息,请参见 Apache Hive 文档。
如果 Hadoop 群集使用 SSL 或 TLS 身份验证,则必须将 ssl=true 添加到 JDBC 连接 URI 中。例如: jdbc:hive2://<主机名>:<端口>/<db>;ssl=true
如果对 SSL 或 TLS 身份验证使用自签名证书,请确保该证书文件在客户端计算机和数据集成服务计算机上可用。有关详细信息,请参阅 《Informatica Big Data Management 群集集成指南》 。
|
bypassHiveJDBCServer
| JDBC 驱动程序模式。启用此选项可使用嵌入式 JDBC 驱动程序(嵌入模式)。
要使用 JDBC 嵌入模式,请执行以下任务:
如果选择非嵌入模式,则必须配置数据访问连接字符串。
首选模式为 JDBC 嵌入模式,而不是非嵌入模式。
|
sqlAuthorized
| 选择在 Hive 源中遵守细粒度 SQL 身份验证的选项时,映射会遵守行级别和列级别数据访问限制。如果没有选择此选项,Blaze 运行时引擎会忽略限制,并且结果将包括限制数据。
适用于启用了 Sentry 或 Ranger 安全模式的 Hadoop 群集。
|
connectString
| 用于访问 Hadoop 数据存储中的数据的连接字符串。非嵌入 JDBC 模式连接字符串必须采用以下格式:
jdbc:hive://<主机名>:<端口>/<db>
其中
要连接到 HiveServer 2,请使用 Apache Hive 为该特定 Hadoop 分发实施的连接字符串格式。有关 Apache Hive 连接字符串格式的详细信息,请参见 Apache Hive 文档。
如果 Hadoop 群集使用 SSL 或 TLS 身份验证,则必须将 ssl=true 添加到 JDBC 连接 URI 中。例如: jdbc:hive2://<主机名>:<端口>/<db>;ssl=true
如果对 SSL 或 TLS 身份验证使用自签名证书,请确保该证书文件在客户端计算机和数据集成服务计算机上可用。有关详细信息,请参阅 《Informatica Big Data Management 群集集成指南》 。
|
属性
| 说明
|
---|---|
databaseName
| 表的命名空间。对于未指定数据库名称的表,请使用名称 default 。
|
customProperties
| 配置或替代运行数据集成服务的计算机上 hive-site.xml 配置集中的 Hive 或 Hadoop 群集属性。可以指定多个属性。
选择 编辑 ,指定属性的名称和值。将按以下格式显示属性:
<属性 1>=<值>
指定多个属性时, &: 将显示为分隔符。
该格式的最大长度为 1 MB。
如果为 Hive 连接输入必需属性,则该属性会替代在“高级 Hive/Hadoop 属性”中配置的属性。
数据集成服务会为每个 map-reduce 作业添加或设置这些属性。您可以在每个映射程序和缩减程序作业的 JobConf 中验证这些属性。从每个 map-reduce 作业下的 Jobtracker URL 中访问每个作业的 JobConf。
数据集成服务可将这些属性的消息写入数据集成服务日志。数据集成服务必须将日志跟踪级别设置为记录每一行,或者将日志跟踪级别设置为详细初始化跟踪。
例如,指定以下属性可控制并限制缩减程序的数量以运行映射作业:
mapred.reduce.tasks=2&:hive.exec.reducers.max=10
|
stgDataCompressionCodecClass
| 可在临时暂存表上启用数据压缩并提高性能的编解码器类名。与代码类型对应的编解码器类名。
|
stgDataCompressionCodecType
| 压缩编解码器类名的 Hadoop 压缩库。
可以选择“None”、“Zlib”、“Gzip”、“Snappy”、“Bz2”、“LZO”或“Custom”。
默认值为 None。
|