Informatica Data Quality
- Informatica Data Quality 10.1
- 모든 제품
속성
| 설명
|
---|---|
이름
| 연결 이름입니다. 이름은 대/소문자를 구분하지 않으며 도메인 내에서 고유해야 합니다. 연결을 작성한 후 이 속성을 변경할 수 있습니다. 이름은 128자를 초과할 수 없고, 공백이나 다음 특수 문자를 포함할 수 없습니다.
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? / |
ID
| 데이터 통합 서비스에서 연결을 식별하기 위해 사용하는 문자열입니다. ID는 대/소문자를 구분하지 않습니다. ID는 255자 이하여야 하고 도메인 내에서 고유해야 합니다. 연결을 작성한 후 이 속성을 변경할 수 없습니다. 기본값은 연결 이름입니다.
|
설명
| 연결의 설명입니다. 설명은 4000자를 초과할 수 없습니다.
|
위치
| 연결을 작성하려는 도메인입니다. Analyst 도구에서는 사용되지 않습니다.
|
유형
| 연결 유형입니다. Hive를 선택합니다.
|
연결 모드
| Hive 연결 모드입니다. 다음 옵션 중 하나 이상을 선택합니다.
소스 또는 대상으로 Hive 액세스 입니다.
|
사용자 이름
| 데이터 통합 서비스가 Hadoop 클러스터에서 매핑을 실행하기 위해 가장하는 사용자의 사용자 이름입니다. 사용자 이름은 원시 환경에 대해 메타데이터 연결 문자열 또는 데이터 액세스 연결 문자열에 지정하는 JDBC 연결 문자열에 따라 다릅니다.
Hadoop 클러스터에서 Hortonworks HDP를 실행하는 경우에는 사용자 이름을 제공해야 합니다. Tez를 사용하여 매핑을 실행하는 경우에는 데이터 통합 서비스의 사용자 계정을 제공해야 합니다. Tez를 사용하여 매핑을 실행하지 않는 경우에는 가장 사용자 계정을 사용할 수 있습니다.
Hadoop 클러스터가 Kerberos 인증을 사용하는 경우 JDBC 연결 문자열의 사용자 이름과 이 사용자 이름이 동일해야 합니다. 그렇지 않으면 사용자 이름은 JDBC 드라이버의 동작에 따라 달라집니다. Hive JDBC 드라이버를 사용하여 사용자 이름을 여러 가지 방법으로 지정할 수 있고 사용자 이름은 JDBC URL의 일부가 될 수 있습니다.
Hadoop 클러스터가 Kerberos 인증을 사용하지 않는 경우 사용자 이름은 JDBC 드라이버의 동작에 따라 다릅니다.
사용자 이름을 지정하지 않으면 Hadoop 클러스터가 다음과 같은 기준에 따라 작업을 인증합니다.
|
두 모드에 공통된 특성: 환경 SQL
| Hadoop 환경을 설정하는 SQL 명령입니다. 원시 환경 유형에서 데이터 통합 서비스는 Hive 메타스토어에 대한 연결을 작성할 때마다 환경 SQL을 실행합니다. Hive 연결을 사용하여 Hadoop 클러스터에서 프로필을 실행하는 경우 데이터 통합 서비스는 각 Hive 세션이 시작될 때 환경 SQL을 실행합니다.
두 연결 모드 모두에서 환경 SQL을 사용할 때 다음과 같은 규칙 및 지침이 적용됩니다.
Hive 연결을 사용하여 Hadoop 클러스터에서 프로필을 실행하는 경우 데이터 통합 서비스는 Hive 연결의 환경 SQL만 실행합니다. Hive 소스 및 대상이 다른 클러스터에 있어도 데이터 통합 서비스는 Hive 소스 또는 대상의 연결에 대해 다른 환경 SQL 명령을 실행하지 않습니다.
|
속성
| 설명
|
---|---|
메타데이터 연결 문자열
| Hadoop 서버에서 메타데이터에 액세스하는 데 사용되는 JDBC 연결 URI입니다.
PowerExchange for Hive를 사용하여 HiveServer 서비스 또는 HiveServer2 서비스와 통신할 수 있습니다.
HiveServer에 연결하려면 연결 문자열을 다음과 같은 형식으로 지정합니다.
jdbc:hive2://<호스트 이름>:<포트>/<db> 여기서
HiveServer 2에 연결하려면 Apache Hive가 해당 특정 Hadoop 배포에 대해 구현하는 연결 문자열 형식을 사용하십시오. Apache Hive 연결 문자열 형식에 대한 자세한 내용은 Apache Hive 설명서를 참조하십시오.
|
Hive JDBC 서버 바이패스
| JDBC 드라이버 모드입니다. 내장된 JDBC 드라이버 모드를 사용하도록 확인란을 선택합니다.
JDBC 포함된 모드를 사용하려면 다음 태스크를 수행합니다.
포함되지 않은 모드를 선택하는 경우 데이터 액세스 연결 문자열을 구성해야 합니다.
Informatica에서는 JDBC 내장 모드를 사용하는 것을 권장합니다.
|
데이터 액세스 연결 문자열
| Hadoop 데이터 저장소에서 데이터에 액세스하는 데 사용되는 연결 문자열입니다.
HiveServer에 연결하려면 포함되지 않은 JDBC 모드 연결 문자열을 다음과 같은 형식으로 지정합니다.
jdbc:hive2://<호스트 이름>:<포트>/<db> 여기서
HiveServer 2에 연결하려면 Apache Hive가 해당 특정 Hadoop 배포에 대해 구현하는 연결 문자열 형식을 사용하십시오. Apache Hive 연결 문자열 형식에 대한 자세한 내용은 Apache Hive 설명서를 참조하십시오.
|
속성
| 설명
|
---|---|
데이터베이스 이름
| 테이블의 네임스페이스입니다. 지정된 데이터베이스 이름이 없는 테이블에는 default 라는 이름을 사용합니다.
|
기본 FS URI
| 기본 Hadoop Distributed File System에 액세스하는 URI입니다.
다음과 같은 연결 URI를 사용합니다.
hdfs://<노드 이름>:<포트> 여기서
Hadoop 클러스터가 MapR을 실행하는 경우 다음 URI를 사용하여 MapR 파일 시스템에 액세스합니다. maprfs:/// |
JobTracker/Yarn 리소스 관리자 URI
| MapReduce 태스크를 클러스터의 특정 노드로 전송하는 Hadoop 내의 서비스입니다.
다음 형식을 사용합니다.
<호스트 이름>:<포트> 여기서
클러스터가 MapR을 YARN과 함께 사용하는 경우 yarn-site.xml의 yarn.resourcemanager.address 속성에 지정된 값을 사용합니다. 클러스터의 NameNode의 다음 디렉터리에서 yarn-site.xml 을 찾을 수 있습니다. /opt/mapr/hadoop/hadoop-2.5.1/etc/hadoop MapReduce 1이 포함된 MapR은 고가용성 JobTracker를 지원합니다. MapR 배포를 사용할 경우 JobTracker URI를 다음과 같은 형식으로 정의합니다. maprfs:/// |
HDFS의 Hive 웨어하우스 디렉터리
| 클러스터에 대해 로컬인 웨어하우스의 기본 데이터베이스에 대한 절대 HDFS 파일 경로입니다. 예를 들어 다음 파일 경로는 로컬 웨어하우스를 지정합니다.
/user/hive/warehouse Cloudera CDH의 경우 메타스토어 실행 모드가 원격인 경우 파일 경로가 Hadoop 클러스터의 Hive 메타스토어 서비스에서 지정된 파일 경로와 일치해야 합니다.
MapR의 경우 hive-site.xml 의 hive.metastore.warehouse.dir 속성에 대해 지정된 값을 사용합니다. HiveServer2를 실행하는 노드의 다음 디렉터리에서 hive-site.xml 을 찾을 수 있습니다. /opt/mapr/hive/hive-0.13/conf |
고급 Hive/Hadoop 속성
| 데이터 통합 서비스가 실행되는 시스템의 hive-site.xml에서 Hive 또는 Hadoop 클러스터 속성을 구성하거나 재정의합니다. 여러 속성을 지정할 수 있습니다.
편집 을 선택하여 속성에 대한 이름 및 값을 지정합니다. 속성이 다음 형식으로 표시됩니다.
<property1>=<값> 여기서
여러 속성을 지정하는 경우 &: 이 속성 구분 기호로 표시됩니다.
형식의 최대 길이는 1MB입니다.
Hive 연결에 대한 필수 속성을 입력하는 경우 고급 Hive/Hadoop 속성에서 구성한 속성이 재정의됩니다.
데이터 통합 서비스는 각 MapReduce 작업에 대해 이러한 속성을 추가하거나 설정합니다. 각 매퍼 또는 reducer 작업의 JobConf에서 이러한 속성을 확인할 수 있습니다. 각 MapReduce 작업 아래의 Jobtracker URL에서 각 작업의 JobConf에 액세스하십시오.
데이터 통합 서비스는 이러한 속성에 대한 메시지를 데이터 통합 서비스 로그에 기록합니다. 데이터 통합 서비스에서 로그 추적 수준을 각 행 기록으로 설정하거나 자세한 정보 표시 초기화 추적으로 설정해야 합니다.
예를 들어 다음과 같은 속성을 지정하여 매핑 작업을 실행하는 reducer의 수를 제어 및 제한합니다.
mapred.reduce.tasks=2&:hive.exec.reducers.max=10 |
임시 테이블 압축 코덱
| 압축 코덱 클래스 이름을 위한 Hadoop 압축 라이브러리입니다.
|
코덱 클래스 이름
| 데이터 압축을 할 수 있게 하고 임시 준비 테이블의 성능을 향상시키는 코덱 클래스 이름입니다.
|
메타스토어 실행 모드
| 원격 메타스토어 또는 로컬 메타스토 중 어디에 연결할지를 제어합니다. 기본적으로 로컬이 선택됩니다. 로컬 메타스토어의 경우 메타스토어 데이터베이스 URI, 드라이버, 사용자 이름 및 암호를 지정해야 합니다. 원격 메타스토어의 경우에는 원격 메타스토어 URI 만 지정해야 합니다.
|
메타스토어 데이터베이스 URI
| 로컬 메타스토어 설정의 데이터 저장소에 액세스하는 데 사용되는 JDBC 연결 URI입니다. 다음과 같은 연결 URI를 사용합니다.
jdbc:<데이터 저장소 유형>://<노드 이름>:<포트>/<데이터베이스 이름> 여기서
예를 들어 다음 URI는 데이터 저장소로 MySQL을 사용하는 로컬 메타스토어를 지정합니다.
jdbc:mysql://hostname23:3306/metastore MapR의 경우 hive-site.xml 의 javax.jdo.option.ConnectionURL 속성에 대해 지정된 값을 사용합니다. HiveServer 2가 실행되는 노드의 다음 디렉터리에서 hive-site.xml을 찾을 수 있습니다. /opt/mapr/hive/hive-0.13/conf
|
메타스토어 데이터베이스 드라이버
| JDBC 데이터 저장소의 드라이버 클래스 이름입니다. 예를 들어 다음 클래스 이름은 MySQL 드라이버를 지정합니다.
com.mysql.jdbc.Driver MapR의 경우 hive-site.xml 의 javax.jdo.option.ConnectionDriverName 속성에 대해 지정된 값을 사용합니다. HiveServer 2가 실행되는 노드의 다음 디렉터리에서 hive-site.xml 을 찾을 수 있습니다. /opt/mapr/hive/hive-0.13/conf |
메타스토어 데이터베이스 사용자 이름
| 메타스토어 데이터베이스 사용자 이름입니다.
MapR의 경우 hive-site.xml 의 javax.jdo.option.ConnectionUserName 속성에 대해 지정된 값을 사용합니다. HiveServer 2가 실행되는 노드의 다음 디렉터리에서 hive-site.xml 을 찾을 수 있습니다. /opt/mapr/hive/hive-0.13/conf |
메타스토어 데이터베이스 암호
| 메타스토어 사용자 이름의 암호입니다.
MapR의 경우 hive-site.xml 의 javax.jdo.option.ConnectionPassword 속성에 대해 지정된 값을 사용합니다. HiveServer 2가 실행되는 노드의 다음 디렉터리에서 hive-site.xml 을 찾을 수 있습니다. /opt/mapr/hive/hive-0.13/conf |
원격 메타스토어 URI
| 원격 메타스토어 설정의 메타데이터에 액세스하는 데 사용되는 메타스토어 URI입니다. 원격 메타스토어의 경우 Thrift 서버 세부 정보를 지정해야 합니다.
다음과 같은 연결 URI를 사용합니다.
thrift://<호스트 이름>:<포트> 여기서
MapR의 경우 hive-site.xml 의 hive.metastore.uris 속성에 대해 지정된 값을 사용합니다. HiveServer 2가 실행되는 노드의 다음 디렉터리에서 hive-site.xml 을 찾을 수 있습니다. /opt/mapr/hive/hive-0.13/conf |