목차

Search

  1. 서문
  2. Informatica Developer
  3. 모델 리포지토리
  4. Informatica Developer에서 검색
  5. 연결
  6. 실제 데이터 개체
  7. 플랫 파일 데이터 개체
  8. 데이터의 논리적 보기
  9. 데이터 보기
  10. 응용 프로그램 배포
  11. 응용 프로그램 패치 배포
  12. 응용 프로그램 패치 배포 예
  13. CI/CD(지속적인 통합 및 지속적인 전달)
  14. 개체 가져오기 및 내보내기
  15. 부록 A: 데이터 유형 참조
  16. 부록 B: 키보드 바로 가기
  17. 부록 C: 연결 속성

Developer tool 가이드

Developer tool 가이드

Databricks 연결 속성

Databricks 연결 속성

Databricks 클러스터에서 매핑을 실행하려면 Databricks 연결을 사용합니다.
Databricks 연결은 클러스터 유형 연결입니다. Administrator 도구 또는 Developer tool에서 Databricks 연결을 생성하고 관리할 수 있습니다. infacmd를 사용하여 Databricks 연결을 생성할 수 있습니다. 데이터 통합 서비스와 Databricks 클러스터 간의 통신이 가능하도록 Databricks 연결에서 속성을 구성합니다.
다음 테이블에는 Databricks 연결에 대한 일반 연결 속성이 설명되어 있습니다.
속성
설명
이름
연결 이름입니다. 이름은 대/소문자를 구분하지 않으며 도메인 내에서 고유해야 합니다. 연결을 작성한 후 이 속성을 변경할 수 있습니다. 이름은 128자를 초과할 수 없고, 공백이나 다음 특수 문자를 포함할 수 없습니다.~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
데이터 통합 서비스에서 연결을 식별하기 위해 사용하는 문자열입니다. ID는 대/소문자를 구분하지 않습니다. ID는 255자 이하여야 하고 도메인 내에서 고유해야 합니다. 연결을 작성한 후 이 속성을 변경할 수 없습니다. 기본값은 연결 이름입니다.
설명
선택 사항입니다. 연결의 설명입니다. 설명은 4,000자를 초과할 수 없습니다.
연결 유형
Databricks를 선택합니다.
클러스터 구성
Databricks 환경과 연결된 클러스터 구성의 이름입니다.
클라우드 프로비저닝 구성을 구성하지 않는 경우 필요합니다.
클라우드 프로비저닝 구성
Databricks 클라우드 플랫폼과 연결된 클라우드 프로비저닝 구성의 이름입니다.
클러스터 구성을 구성하지 않는 경우 필요합니다.
준비 디렉터리
Databricks Spark 엔진이 런타임 파일을 준비하는 디렉터리입니다.
존재하지 않는 디렉터리를 지정하면 데이터 통합 서비스가 런타임 시 디렉터리를 생성합니다.
디렉터리 경로를 제공하지 않는 경우 런타임 준비 파일은
/<클러스터 준비 디렉터리>/DATABRICKS
에 기록됩니다.
고급 속성
Databricks 환경에 고유한 고급 속성 목록입니다.
데이터 통합 서비스 및 Databricks 연결에서 Databricks 환경에 대한 런타임 속성을 구성할 수 있습니다. 상위 수준에서 구성된 속성을 하위 수준에서 값을 설정하여 재정의할 수 있습니다. 예를 들어 데이터 통합 서비스 사용자 지정 속성에서 속성을 구성하는 Databricks 연결에서 속성을 재정의할 수 있습니다. 데이터 통합 서비스는 다음 우선 순위에 따라 속성 재정의를 처리합니다.
  1. Databricks 연결 고급 속성
  2. 데이터 통합 서비스 사용자 지정 속성
타사 설명서, Informatica 설명서 또는 Informatica 글로벌 고객 지원 센터에 문의하기 전에 이러한 속성 값을 변경하지 않는 것이 좋습니다. 속성에 대한 지식 없이 값을 변경하면 성능 저하 또는 기타 예상치 못한 결과가 발생할 수 있습니다.

고급 속성

Databricks 구성 섹션의
고급 속성
에서 다음 속성을 구성합니다.
infaspark.json.parser.mode
파서가 손상된 JSON 레코드를 처리하는 방법을 지정합니다. 다음 모드 중 하나로 값을 설정할 수 있습니다.
  • DROPMALFORMED. 파서가 모든 손상된 레코드를 무시합니다. 기본 모드입니다.
  • PERMISSIVE. 파서가 손상된 레코드에서 비표준 필드를 null로 수락합니다.
  • FAILFAST. 손상된 레코드가 있고 Spark 응용 프로그램이 중단된 경우 파서가 예외를 생성합니다.
infaspark.json.parser.multiLine
파서가 JSON 파일의 다중 행 레코드를 읽을 수 있는지 여부를 지정합니다. 이 값을 true 또는 false로 설정할 수 있습니다. 기본값은 false입니다. Spark 버전 2.2.x 이상을 사용하는 비원시 배포에만 적용됩니다.
infaspark.flatfile.writer.nullValue
Databricks Spark 엔진이 대상에 쓸 때 null 값을 빈 문자열(" ")로 변환합니다. 예: 12, AB,"",23p09udj.
Databricks Spark 엔진은 빈 문자열을 문자열 열에 쓸 수 있지만 빈 문자열을 비문자열 열에 쓰려고 하면 유형 불일치로 인해 매핑이 실패합니다.
Databricks Spark 엔진에서 빈 문자열을 null 값으로 다시 변환한 후 대상에 쓸 수 있도록 하려면 Databricks Spark 연결에서 속성을 구성합니다.
TRUE로 설정합니다.
infaspark.pythontx.exec
Databricks Spark 엔진에서 Python 변환을 실행하는 데 필요합니다. Databricks 클러스터의 작업자 노드에 있는 Python 실행 파일 바이너리의 위치를 설정합니다.
런타임 시 클러스터를 프로비저닝하는 경우 Databricks 클라우드 프로비저닝 구성에서 이 속성을 설정합니다. 또는 Databricks 연결에서 설정합니다.
예를 들어 다음으로 설정합니다.
infaspark.pythontx.exec=/databricks/python3/bin/python3
infaspark.pythontx.executorEnv.PYTHONHOME
Databricks Spark 엔진에서 Python 변환을 실행하는 데 필요합니다. Databricks 클러스터의 작업자 노드에 있는 Python 설치 디렉터리의 위치를 설정합니다.
런타임 시 클러스터를 프로비저닝하는 경우 Databricks 클라우드 프로비저닝 구성에서 이 속성을 설정합니다. 또는 Databricks 연결에서 설정합니다.
예를 들어 다음으로 설정합니다.
infaspark.pythontx.executorEnv.PYTHONHOME=/databricks/python3