목차

Search

  1. 서문
  2. PowerCenter Express 소개
  3. Informatica Developer
  4. 모델 리포지토리
  5. Informatica Developer에서 검색
  6. 연결
  7. 실제 데이터 개체
  8. 플랫 파일 데이터 개체
  9. 프로필
  10. 데이터의 논리적 보기
  11. 변환
  12. 데이터 보기
  13. 응용 프로그램 배포
  14. 개체 가져오기 및 내보내기
  15. 데이터 유형 참조
  16. 키보드 바로 가기
  17. 연결 속성

Developer tool 가이드 사용자 가이드

Developer tool 가이드 사용자 가이드

Hive 연결 속성

Hive 연결 속성

Hive 연결을 사용하여 Hive 데이터에 액세스할 수 있습니다. Hive 연결은 데이터베이스 유형 연결입니다. Administrator 도구, Analyst 도구 또는 Developer tool에서 Hive 연결을 작성하고 관리할 수 있습니다. 따로 언급되어 있지 않은 한 Hive 연결 속성을 대/소문자를 구분합니다.
연결 속성의 순서는 사용자가 이러한 속성을 보는 도구에 따라 다를 수 있습니다.
다음 테이블에서는 Hive 연결 속성에 대해 설명합니다.
속성
설명
이름
연결 이름입니다. 이름은 대/소문자를 구분하지 않으며 도메인 내에서 고유해야 합니다. 연결을 작성한 후 이 속성을 변경할 수 있습니다. 이름은 128자를 초과할 수 없고, 공백이나 다음 특수 문자를 포함할 수 없습니다.
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
데이터 통합 서비스에서 연결을 식별하기 위해 사용하는 문자열입니다. ID는 대/소문자를 구분하지 않습니다. ID는 255자 이하여야 하고 도메인 내에서 고유해야 합니다. 연결을 작성한 후 이 속성을 변경할 수 없습니다. 기본값은 연결 이름입니다.
설명
연결의 설명입니다. 설명은 4000자를 초과할 수 없습니다.
위치
연결을 작성하려는 도메인입니다. Analyst 도구에서는 사용되지 않습니다.
유형
연결 유형입니다. Hive를 선택합니다.
연결 모드
Hive 연결 모드입니다. 다음 옵션 중 하나 이상을 선택합니다.
  • HiveServer2에 액세스하여 매핑 실행. 연결을 사용하여 Hive 데이터 웨어하우스에 액세스하려면 이 옵션을 선택합니다. Hive를 대상으로 사용하려면 동일한 연결 또는 Hive 연결을 활성화하여 Hadoop 클러스터에서 매핑을 실행해야 합니다.
  • Hive CLI에 액세스하여 매핑 실행. Hive CLI를 사용하여 Hadoop 클러스터에서 매핑을 실행하려면 이 옵션을 선택합니다.
두 가지 옵션 모두 선택할 수 있습니다. 기본값은
소스 또는 대상으로 Hive 액세스
입니다.
사용자 이름
데이터 통합 서비스가 Hadoop 클러스터에서 매핑을 실행하기 위해 가장하는 사용자의 사용자 이름입니다. 사용자 이름은 원시 환경에 대해 메타데이터 연결 문자열 또는 데이터 액세스 연결 문자열에 지정하는 JDBC 연결 문자열에 따라 다릅니다.
Hadoop 클러스터에서 Hortonworks HDP를 실행하는 경우에는 사용자 이름을 제공해야 합니다. Tez를 사용하여 매핑을 실행하는 경우에는 데이터 통합 서비스의 사용자 계정을 제공해야 합니다. Tez를 사용하여 매핑을 실행하지 않는 경우에는 가장 사용자 계정을 사용할 수 있습니다.
Hadoop 클러스터가 Kerberos 인증을 사용하는 경우 JDBC 연결 문자열의 사용자 이름과 이 사용자 이름이 동일해야 합니다. 그렇지 않으면 사용자 이름은 JDBC 드라이버의 동작에 따라 달라집니다. Hive JDBC 드라이버를 사용하여 사용자 이름을 여러 가지 방법으로 지정할 수 있고 사용자 이름은 JDBC URL의 일부가 될 수 있습니다.
Hadoop 클러스터가 Kerberos 인증을 사용하지 않는 경우 사용자 이름은 JDBC 드라이버의 동작에 따라 다릅니다.
사용자 이름을 지정하지 않으면 Hadoop 클러스터가 다음과 같은 기준에 따라 작업을 인증합니다.
  • Hadoop 클러스터가 Kerberos 인증을 사용하지 않습니다. 데이터 통합 서비스를 실행하는 시스템의 운영 체제 프로필 사용자 이름에 따라 작업을 인증합니다.
  • Hadoop 클러스터가 Kerberos 인증을 사용합니다. 데이터 통합 서비스의 SPN에 따라 작업을 인증합니다.
두 모드에 공통된 특성: 환경 SQL
Hadoop 환경을 설정하는 SQL 명령입니다. 원시 환경 유형에서 데이터 통합 서비스는 Hive 메타스토어에 대한 연결을 작성할 때마다 환경 SQL을 실행합니다. Hive 연결을 사용하여 Hadoop 클러스터에서 프로필을 실행하는 경우 데이터 통합 서비스는 각 Hive 세션이 시작될 때 환경 SQL을 실행합니다.
두 연결 모드 모두에서 환경 SQL을 사용할 때 다음과 같은 규칙 및 지침이 적용됩니다.
  • 환경 SQL을 사용하여 Hive 쿼리를 지정합니다.
  • 환경 SQL을 사용하여 Hive 사용자 정의 함수의 클래스 경로를 설정한 후 환경 SQL 또는 PreSQL을 사용하여 Hive 사용자 정의 함수를 지정합니다. 데이터 개체 속성에서 PreSQL을 사용하여 클래스 경로를 지정할 수는 없습니다. 이 경로는 사용자 정의 함수에 사용되는 JAR 파일의 정규화된 경로여야 합니다. 사용자 정의 함수에 사용되는 JAR 파일의 경로 및 infapdo.aux.jars.path의 모든 항목을 사용하여 hive.aux.jars.path 매개 변수를 설정합니다.
  • 또한 환경 SQL을 사용하여 PreSQL 명령 또는 사용자 지정 쿼리에서 사용하려는 Hadoop 또는 Hive 매개 변수를 정의할 수도 있습니다.
  • 환경 SQL 속성에 여러 값을 사용할 경우 값 사이에 공백이 없어야 합니다. 다음 샘플 텍스트에서는 환경 SQL에 사용할 수 있는 값 두 개를 보여 줍니다.
    set hive.execution.engine='tez';set hive.exec.dynamic.partition.mode='nonstrict';
Hive 연결을 사용하여 Hadoop 클러스터에서 프로필을 실행하는 경우 데이터 통합 서비스는 Hive 연결의 환경 SQL만 실행합니다. Hive 소스 및 대상이 다른 클러스터에 있어도 데이터 통합 서비스는 Hive 소스 또는 대상의 연결에 대해 다른 환경 SQL 명령을 실행하지 않습니다.

소스 또는 대상으로 Hive에 액세스하기 위한 속성

다음 테이블에서는 소스 또는 대상으로 Hive에 액세스하기 위해 구성하는 연결 속성에 대해 설명합니다.
속성
설명
메타데이터 연결 문자열
Hadoop 서버에서 메타데이터에 액세스하는 데 사용되는 JDBC 연결 URI입니다.
PowerExchange for Hive를 사용하여 HiveServer 서비스 또는 HiveServer2 서비스와 통신할 수 있습니다.
HiveServer에 연결하려면 연결 문자열을 다음과 같은 형식으로 지정합니다.
jdbc:hive2://<호스트 이름>:<포트>/<db>
여기서
  • <호스트 이름>은(는) HiveServer2가 실행되는 시스템의 이름 또는 IP 주소입니다.
  • <포트>은(는) HiveServer2가 수신하는 포트 번호입니다.
  • <db>은(는) 연결하려는 데이터베이스 이름입니다. 데이터베이스 이름을 제공하지 않을 경우 데이터 통합 서비스는 기본 데이터베이스 세부 정보를 사용합니다.
HiveServer 2에 연결하려면 Apache Hive가 해당 특정 Hadoop 배포에 대해 구현하는 연결 문자열 형식을 사용하십시오. Apache Hive 연결 문자열 형식에 대한 자세한 내용은 Apache Hive 설명서를 참조하십시오.
Hive JDBC 서버 바이패스
JDBC 드라이버 모드입니다. 내장된 JDBC 드라이버 모드를 사용하도록 확인란을 선택합니다.
JDBC 포함된 모드를 사용하려면 다음 태스크를 수행합니다.
  • Hive 클라이언트 및 Informatica 서비스가 동일한 시스템이 설치되어 있는지 확인합니다.
  • Hadoop 클러스터에서 매핑을 실행하기 위한 Hive 연결 속성을 구성합니다.
포함되지 않은 모드를 선택하는 경우 데이터 액세스 연결 문자열을 구성해야 합니다.
Informatica에서는 JDBC 내장 모드를 사용하는 것을 권장합니다.
데이터 액세스 연결 문자열
Hadoop 데이터 저장소에서 데이터에 액세스하는 데 사용되는 연결 문자열입니다.
HiveServer에 연결하려면 포함되지 않은 JDBC 모드 연결 문자열을 다음과 같은 형식으로 지정합니다.
jdbc:hive2://<호스트 이름>:<포트>/<db>
여기서
  • <호스트 이름>은(는) HiveServer2가 실행되는 시스템의 이름 또는 IP 주소입니다.
  • <포트>은(는) HiveServer2가 수신하는 포트 번호입니다.
  • <db>은(는) 연결하려는 데이터베이스입니다. 데이터베이스 이름을 제공하지 않을 경우 데이터 통합 서비스는 기본 데이터베이스 세부 정보를 사용합니다.
HiveServer 2에 연결하려면 Apache Hive가 해당 특정 Hadoop 배포에 대해 구현하는 연결 문자열 형식을 사용하십시오. Apache Hive 연결 문자열 형식에 대한 자세한 내용은 Apache Hive 설명서를 참조하십시오.

Hadoop 클러스터에서 매핑을 실행하기 위한 속성

다음 테이블에서는 Hive 연결을 사용하여 Hadoop 클러스터에서 Informatica 매핑을 실행하려는 경우 구성하는 Hive 연결 속성에 대해 설명합니다.
속성
설명
데이터베이스 이름
테이블의 네임스페이스입니다. 지정된 데이터베이스 이름이 없는 테이블에는
default
라는 이름을 사용합니다.
기본 FS URI
기본 Hadoop Distributed File System에 액세스하는 URI입니다.
다음과 같은 연결 URI를 사용합니다.
hdfs://<노드 이름>:<포트>
여기서
  • <노드 이름>은(는) NameNode의 호스트 이름 또는 IP 주소입니다.
  • <포트>은(는) NameNode가 RPC(원격 프로시저 호출)를 수신하는 포트입니다.
Hadoop 클러스터가 MapR을 실행하는 경우 다음 URI를 사용하여 MapR 파일 시스템에 액세스합니다.
maprfs:///
JobTracker/Yarn 리소스 관리자 URI
MapReduce 태스크를 클러스터의 특정 노드로 전송하는 Hadoop 내의 서비스입니다.
다음 형식을 사용합니다.
<호스트 이름>:<포트>
여기서
  • <호스트 이름>은(는) JobTracker 또는 Yarn 리소스 관리자의 호스트 이름 또는 IP 주소입니다.
  • <포트>은(는) JobTracker 또는 Yarn 리소스 관리자가 RPC(원격 프로시저 호출)를 수신하는 포트입니다.
클러스터가 MapR을 YARN과 함께 사용하는 경우 yarn-site.xml의
yarn.resourcemanager.address
속성에 지정된 값을 사용합니다. 클러스터의 NameNode의 다음 디렉터리에서
yarn-site.xml
을 찾을 수 있습니다.
/opt/mapr/hadoop/hadoop-2.5.1/etc/hadoop
MapReduce 1이 포함된 MapR은 고가용성 JobTracker를 지원합니다. MapR 배포를 사용할 경우 JobTracker URI를 다음과 같은 형식으로 정의합니다.
maprfs:///
HDFS의 Hive 웨어하우스 디렉터리
클러스터에 대해 로컬인 웨어하우스의 기본 데이터베이스에 대한 절대 HDFS 파일 경로입니다. 예를 들어 다음 파일 경로는 로컬 웨어하우스를 지정합니다.
/user/hive/warehouse
Cloudera CDH의 경우 메타스토어 실행 모드가 원격인 경우 파일 경로가 Hadoop 클러스터의 Hive 메타스토어 서비스에서 지정된 파일 경로와 일치해야 합니다.
MapR의 경우
hive-site.xml
hive.metastore.warehouse.dir
속성에 대해 지정된 값을 사용합니다. HiveServer2를 실행하는 노드의 다음 디렉터리에서
hive-site.xml
을 찾을 수 있습니다.
/opt/mapr/hive/hive-0.13/conf
고급 Hive/Hadoop 속성
데이터 통합 서비스가 실행되는 시스템의 hive-site.xml에서 Hive 또는 Hadoop 클러스터 속성을 구성하거나 재정의합니다. 여러 속성을 지정할 수 있습니다.
편집
을 선택하여 속성에 대한 이름 및 값을 지정합니다. 속성이 다음 형식으로 표시됩니다.
<property1>=<값>
여기서
  • <property1>은(는) hive-site.xml의 Hive 또는 Hadoop 속성입니다.
  • <값>은(는) Hive 또는 Hadoop 속성의 값입니다.
여러 속성을 지정하는 경우
&:
이 속성 구분 기호로 표시됩니다.
형식의 최대 길이는 1MB입니다.
Hive 연결에 대한 필수 속성을 입력하는 경우 고급 Hive/Hadoop 속성에서 구성한 속성이 재정의됩니다.
데이터 통합 서비스는 각 MapReduce 작업에 대해 이러한 속성을 추가하거나 설정합니다. 각 매퍼 또는 reducer 작업의 JobConf에서 이러한 속성을 확인할 수 있습니다. 각 MapReduce 작업 아래의 Jobtracker URL에서 각 작업의 JobConf에 액세스하십시오.
데이터 통합 서비스는 이러한 속성에 대한 메시지를 데이터 통합 서비스 로그에 기록합니다. 데이터 통합 서비스에서 로그 추적 수준을 각 행 기록으로 설정하거나 자세한 정보 표시 초기화 추적으로 설정해야 합니다.
예를 들어 다음과 같은 속성을 지정하여 매핑 작업을 실행하는 reducer의 수를 제어 및 제한합니다.
mapred.reduce.tasks=2&:hive.exec.reducers.max=10
임시 테이블 압축 코덱
압축 코덱 클래스 이름을 위한 Hadoop 압축 라이브러리입니다.
코덱 클래스 이름
데이터 압축을 할 수 있게 하고 임시 준비 테이블의 성능을 향상시키는 코덱 클래스 이름입니다.
메타스토어 실행 모드
원격 메타스토어 또는 로컬 메타스토 중 어디에 연결할지를 제어합니다. 기본적으로 로컬이 선택됩니다. 로컬 메타스토어의 경우 메타스토어 데이터베이스 URI, 드라이버, 사용자 이름 및 암호를 지정해야 합니다. 원격 메타스토어의 경우에는
원격 메타스토어 URI
만 지정해야 합니다.
메타스토어 데이터베이스 URI
로컬 메타스토어 설정의 데이터 저장소에 액세스하는 데 사용되는 JDBC 연결 URI입니다. 다음과 같은 연결 URI를 사용합니다.
jdbc:<데이터 저장소 유형>://<노드 이름>:<포트>/<데이터베이스 이름>
여기서
  • <노드 이름>은(는) 데이터 저장소의 호스트 이름 또는 IP 주소입니다.
  • <데이터 저장소 유형>은(는) 데이터 저장소의 유형입니다.
  • <포트>은(는) 데이터 저장소가 RPC(원격 프로시저 호출)를 수신하는 포트입니다.
  • <데이터베이스 이름>은(는) 데이터베이스의 이름입니다.
예를 들어 다음 URI는 데이터 저장소로 MySQL을 사용하는 로컬 메타스토어를 지정합니다.
jdbc:mysql://hostname23:3306/metastore
MapR의 경우
hive-site.xml
javax.jdo.option.ConnectionURL
속성에 대해 지정된 값을 사용합니다. HiveServer 2가 실행되는 노드의 다음 디렉터리에서 hive-site.xml을 찾을 수 있습니다. /opt/mapr/hive/hive-0.13/conf
메타스토어 데이터베이스 드라이버
JDBC 데이터 저장소의 드라이버 클래스 이름입니다. 예를 들어 다음 클래스 이름은 MySQL 드라이버를 지정합니다.
com.mysql.jdbc.Driver
MapR의 경우
hive-site.xml
javax.jdo.option.ConnectionDriverName
속성에 대해 지정된 값을 사용합니다. HiveServer 2가 실행되는 노드의 다음 디렉터리에서
hive-site.xml
을 찾을 수 있습니다.
/opt/mapr/hive/hive-0.13/conf
메타스토어 데이터베이스 사용자 이름
메타스토어 데이터베이스 사용자 이름입니다.
MapR의 경우
hive-site.xml
javax.jdo.option.ConnectionUserName
속성에 대해 지정된 값을 사용합니다. HiveServer 2가 실행되는 노드의 다음 디렉터리에서
hive-site.xml
을 찾을 수 있습니다.
/opt/mapr/hive/hive-0.13/conf
메타스토어 데이터베이스 암호
메타스토어 사용자 이름의 암호입니다.
MapR의 경우
hive-site.xml
javax.jdo.option.ConnectionPassword
속성에 대해 지정된 값을 사용합니다. HiveServer 2가 실행되는 노드의 다음 디렉터리에서
hive-site.xml
을 찾을 수 있습니다.
/opt/mapr/hive/hive-0.13/conf
원격 메타스토어 URI
원격 메타스토어 설정의 메타데이터에 액세스하는 데 사용되는 메타스토어 URI입니다. 원격 메타스토어의 경우 Thrift 서버 세부 정보를 지정해야 합니다.
다음과 같은 연결 URI를 사용합니다.
thrift://<호스트 이름>:<포트>
여기서
  • <호스트 이름>은(는) Thrift 메타스토어 서버의 이름 또는 IP 주소입니다.
  • <포트>은(는) Thrift 서버가 수신할 포트입니다.
MapR의 경우
hive-site.xml
hive.metastore.uris
속성에 대해 지정된 값을 사용합니다. HiveServer 2가 실행되는 노드의 다음 디렉터리에서
hive-site.xml
을 찾을 수 있습니다.
/opt/mapr/hive/hive-0.13/conf