目录

Search

  1. 前言
  2. 了解域
  3. 管理您的帐户
  4. 使用 Informatica Administrator
  5. 使用“域”视图
  6. 域管理
  7. 节点
  8. 高可用性
  9. 连接
  10. 连接属性
  11. 计划
  12. 域对象导出和导入
  13. 许可证管理
  14. 监视
  15. 日志管理
  16. 域报告
  17. 节点诊断
  18. 了解全球化
  19. 代码页
  20. 自定义角色
  21. Informatica 平台连接
  22. 配置 Web 浏览器

管理员指南

管理员指南

Databricks 连接属性

Databricks 连接属性

可使用 Databricks 连接在 Databricks 群集上运行映射。
Databricks 连接是群集类型连接。您可以在 Administrator 工具或 Developer tool 中创建和管理 Databricks 连接。可以使用 infacmd 命令来创建 Databricks 连接。配置 Databricks 连接属性可使数据集成服务和 Databricks 群集之间相互通信。
下表介绍了 Databricks 连接的常规连接属性:
属性
说明
名称
连接的名称。名称不区分大小写,但在域中必须唯一。可以在创建连接后更改此属性。名称不能超出 128 个字符,也不能包含空格或以下特殊字符: ~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
数据集成服务用来标识连接的字符串。ID 不区分大小写。不得超过 255 个字符,并且在域中必须唯一。不能在创建连接后更改此属性。默认值是连接名称。
说明
可选。连接的说明。说明不得超过 4,000 个字符。
连接类型
选择 Databricks。
群集配置
与 Databricks 环境关联的群集配置的名称。
如果不配置云置备配置,则需要此信息。
云置备配置
与 Databricks 云平台关联的云置备配置的名称。
如果不配置群集配置,则需要此信息。
暂存目录
Databricks Spark 引擎用于暂存运行时文件的目录。
如果指定的目录不存在,数据集成服务将在运行时创建该目录。
如果不提供目录路径,将把运行时暂存文件写入到
/<群集暂存目录>/DATABRICKS
中。
高级属性
Databricks 环境特有的高级属性的列表。
可在数据集成服务中和 Databricks 连接中为 Databricks 环境配置运行时属性。通过在较低级别设置属性值,可以替代在较高级别配置的属性。例如,如果您在数据集成服务自定义属性中配置某个属性,则可以在 Databricks 连接中替代该属性。数据集成服务根据以下优先级来处理属性的替代:
  1. Databricks 连接高级属性
  2. 数据集成服务自定义属性
Informatica 建议在更改这些属性值之前,先查阅第三方文档或 Informatica 文档或者咨询 Informatica 全球客户支持。如果在不了解属性的情况下更改属性值,则可能会导致性能降级或其他意外结果。

高级属性

在 Databricks 配置部分的
高级属性
中,可配置以下属性:
infaspark.json.parser.mode
指定解析器如何处理已损坏的 JSON 记录。您可以将值设置为下列模式之一:
  • DROPMALFORMED。解析器忽略所有已损坏的记录。默认模式。
  • PERMISSIVE。解析器接受非标准字段充当已损坏记录中的空值。
  • FAILFAST。如果遇到已损坏的记录,并且 Spark 应用程序关闭,解析器将生成异常。
infaspark.json.parser.multiLine
指定解析器是否可读取 JSON 文件中的多行记录。可以设置此值为 true 或 false。默认值为 false。仅适用于使用 Spark 2.2.x 及更高版本的非本地分发。
infaspark.flatfile.writer.nullValue
当 Databricks Spark 引擎写入到目标时,将把空值转换为空字符串 (" ")。例如,12、AB、""、23p09udj。
Databricks Spark 引擎可将空字符串写入到字符串列,但是尝试将空字符串写入到空字符串列时,因为类型不匹配,映射将失败。
要让 Databricks Spark 引擎将空字符串转换回空值并写入到目标,请在 Databricks Spark 连接中配置以下高级属性:
infaspark.flatfile.writer.nullValue=true