Sumário

Search

  1. Prefácio
  2. Entendendo Domínios
  3. Gerenciando Sua Conta
  4. Usando o Informatica Administrator
  5. Usando a Exibição Domínio
  6. Gerenciamento de Domínio
  7. Nós
  8. Alta Disponibilidade
  9. Conexões
  10. Propriedades de Conexão
  11. Agendamentos
  12. Exportação e importação do objeto de domínio
  13. Gerenciamento de licenças
  14. Monitoramento
  15. Gerenciamento de Logs
  16. Relatórios de domínio
  17. Diagnóstico de nó
  18. Noções Básicas de Globalização
  19. Administração do Informatica Cloud
  20. POWERCENTERHELP
  21. Páginas de Códigos
  22. Funções personalizadas
  23. Conectividade da Plataforma Informatica
  24. Configurar o Navegador da Web

Guia do Administrador

Guia do Administrador

Propriedades da Conexão Hive

Propriedades da Conexão Hive

Use a conexão do Hive para acessar dados do Hive. Uma conexão do Hive é uma conexão do tipo de banco de dados. Você pode criar e gerenciar uma conexão do Hive na ferramenta Administrator, na ferramenta Analyst ou na Developer tool. As propriedades de conexão Hive fazem distinção entre maiúsculas e minúsculas, salvo observação contrária.
A ordem das propriedades da conexão pode variar dependendo da ferramenta com a qual você as exibe.
A tabela a seguir descreve as propriedades de conexão do Hive:
Propriedade
Descrição
Nome
O nome da conexão. O nome não faz distinção entre maiúsculas e minúsculas, e deve ser exclusivo no domínio. Você pode alterar essa propriedade após criar a conexão. O nome não pode exceder 128 caracteres, conter espaços nem conter os seguintes caracteres especiais:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
Cadeia que o Serviço de Integração de Dados usa para identificar a conexão. O ID não diferencia maiúsculas de minúsculas. Ele deve ser de 255 caracteres ou menos e deve ser exclusivo no domínio. Você não poderá alterar essa propriedade depois de criar a conexão. O valor padrão é o nome da conexão.
Descrição
A descrição da conexão. A descrição não pode conter mais de 4.000 caracteres.
Localização
O domínio no qual você deseja criar a conexão. Não é válido para a ferramenta Analyst.
Tipo
O tipo de conexão. Selecione o Hive.
Modos de Conexão
Modo de conexão Hive. Selecione pelo menos uma das seguintes opções:
  • Acessar o Hive como origem ou destino. Selecione essa opção se você desejar usar a conexão para acessar o depósito de dados do Hive. Se você deseja acessar o Hive como destino, deve-se ativar a mesma conexão ou outra conexão do Hive para executar o mapeamento no cluster Hadoop.
  • Use o hive para executar mapeamentos no cluster Hadoop. Selecione essa opção se quiser usar a conexão para executar perfis no cluster Hadoop.
Você pode selecionar ambas as opções. O padrão é
Acessar o Hive como origem ou destino
.
Nome de Usuário
O nome de usuário que o Serviço de Integração de Dados representar para executar mapeamentos em um cluster Hadoop. O nome de usuário depende da cadeia de conexão JDBC que você especificar na Cadeia de Conexão de Metadados ou na Cadeia de Conexão de Acesso aos Dados do ambiente nativo.
Se o cluster Hadoop usar a autenticação Kerberos, o nome principal da cadeia de conexão JDBC e o nome de usuário devem ser os mesmos. Caso contrário, o nome de usuário dependerá do comportamento do driver JDBC. Com driver Hive JDBC, você pode especificar um nome de usuário de várias maneiras e o nome de usuário pode tornar-se uma parte do URL JDBC.
Se o cluster Hadoop não usar a autenticação Kerberos, o nome de usuário dependerá do comportamento do driver JDBC.
Se você não especificar um nome de usuário, o cluster Hadoop autenticará trabalhos com base nos seguintes critérios:
  • O cluster Hadoop não usa a autenticação Kerberos. Ele autentica trabalhos com base no nome de usuário do perfil do sistema operacional da máquina que executa o Serviço de Integração de Dados.
  • O cluster Hadoop usa a autenticação Kerberos. Ele autentica trabalhos com base no SPN do Serviço de Integração de Dados.
Atributos Comuns a Ambos os Modos: Ambiente SQL
Comandos SQL para definir o ambiente Hadoop. No tipo de ambiente nativo, o Serviço de Integração de Dados executa o SQL de ambiente cada vez que ele cria uma conexão para Hive metastore. Se a conexão do Hive for usada para executar perfis no cluster Hadoop, o Serviço de Integração de Dados executará o SQL de ambiente no início de cada sessão do Hive.
Aplicam-se as seguintes regras e diretrizes para o uso do SQL de ambiente nos modos de conexão:
  • Use o ambiente SQL para especificar as consultas Hive.
  • Use o SQL de ambiente para configurar o classpath para funções Hive definidas pelo usuário e, em seguida, use o SQL de ambiente ou PreSQL para especificar as funções Hive definidas pelo usuário. Você não pode usar PreSQL nas propriedades de objeto de dados para especificar o classpath. O caminho deve ser o caminho completo para os arquivos JAR usado para funções definidas pelo usuário. Defina o parâmetro hive.aux.jars.path com todas as entradas no infapdo.aux.jars.path e o caminho para os arquivos JAR para funções definidas pelo usuário.
  • Você pode usar o SQL de ambiente para definir os parâmetros Hadoop ou Hive que você deseja usar nos comandos PreSQL ou em consultas personalizadas.
Se a conexão do Hive for usada para executar perfis no cluster Hadoop, o serviço de Integração de Dados executará somente o SQL de ambiente dessa conexão. Se as origens e destinos do Hive estão em diferentes clusters, o Serviço de Integração de Dados não executará os comandos do SQL de ambiente diferentes para as conexões da fonte ou destino do Hive.

Propriedades para Acessar o Hive como Origem ou Destino

A tabela a seguir descreve as propriedades de conexão que você configura para acessar o Hive como origem ou destino:
Propriedade
Descrição
Cadeia de Conexão de Metadados
O URI da conexão JDBC usada para acessar os metadados do servidor do Hadoop.
Você pode usar o PowerExchange for Hive para se comunicar com um serviço HiveServer ou HiveServer2.
Para se conectar ao HiveServer, especifique a Cadeia de conexão no seguinte formato:
jdbc:hive2://<hostname>:<port>/<db>
Onde
  • <hostname> é o nome ou endereço IP da máquina na qual o HiveServer2 é executado.
  • <port> é o número da porta de escuta do HiveServer2.
  • <db> é o nome do banco de dados ao qual você deseja se conectar. Se você não fornecer o nome do banco de dados, o Serviço de Integração de Dados usará os detalhes do banco de dados padrão.
Para se conectar ao HiveServer 2, use o formato de cadeia de conexão que o Apache Hive implementa na Distribuição específica do Hadoop. Para obter mais informações sobre os formatos de cadeia de conexão do Apache Hive, consulte a documentação do Apache Hive.
Ignorar Servidor Hive JDBC
O modo do driver JDBC. Selecione a caixa de seleção para usar o modo do driver JDBC incorporado.
Para usar o modo incorporado JDBC, realize as seguintes tarefas:
  • Verifique se o cliente Hive e serviços Informatica estão instalados na mesma máquina.
  • Configure as propriedades de conexão Hive para executar mapeamentos no cluster Hadoop.
Se você escolher o modo não incorporado, configure a Cadeia de Conexão do Acesso a Dados.
A Informatica recomenda que você use o modo JDBC incorporado.
Cadeia de Conexão de Acesso aos Dados
A cadeia de conexão para acessar dados do armazenamento de dados Hadoop.
Para se conectar ao HiveServer, especifique a cadeia de conexão do modo JDBC não incorporado no seguinte formato:
jdbc:hive2://<hostname>:<port>/<db>
Onde
  • <hostname> é o nome ou endereço IP da máquina na qual o HiveServer2 é executado.
  • <port> é o número da porta de escuta do HiveServer2.
  • <db> é o banco de dados no qual você deseja se conectar. Se você não fornecer o nome do banco de dados, o Serviço de Integração de Dados usará os detalhes do banco de dados padrão.
Para se conectar ao HiveServer 2, use o formato de cadeia de conexão que o Apache Hive implementa na Distribuição específica do Hadoop. Para obter mais informações sobre os formatos de cadeia de conexão do Apache Hive, consulte a documentação do Apache Hive.

Propriedades para Executar Mapeamentos no Cluster Hadoop

A tabela a seguir descreve as propriedades de conexão do Hive que você configura quando deseja usar a conexão do Hive para executar os mapeamentos da Informatica no cluster Hadoop:
Propriedade
Descrição
Nome do Banco de Dados
O espaço de nome das tabelas. Use o nome
padrão
para tabelas que não tenham um nome do banco de dados especificado.
URI do FS Padrão
O URI para acessar o sistema de arquivos distribuídos do Hadoop padrão.
Use o seguinte URI de conexão:
hdfs://<node name>:<port>
onde
  • <node name> é o nome de host ou endereço IP do NameNode.
  • <port> é a porta na qual o NameNode ouve as chamadas de procedimento remoto (RPC).
Se o cluster Hadoop executar o MapR, use o seguinte URI para acessar o sistema de Arquivos MapR:
maprfs:///
.
URI do Gerenciador de Recursos do JobTracker/Yarn
O serviço dentro do Hadoop que envia as tarefas do MapReduce para nós específico do cluster.
Use o seguinte formato:
<hostname>:<port>
Onde
  • <hostname> é o nome de host ou endereço IP do gerenciador de recursos do JobTracker ou Yarn.
  • <port> é a porta na qual o gerenciador de recursos do JobTracker ou Yarn ouve chamadas de procedimento remoto (RPC).
Se o cluster usar o MapR com YARN, use o valor especificado na propriedade
yarn.resourcemanager.address
em yarn-site.xml. É possível encontrar
yarn-site.xml
no seguinte diretório no NameNode do cluster:
/opt/mapr/hadoop/hadoop-2.5.1/etc/hadoop
.
O MapR com MapReduce 1 oferece suporte a um JobTracker de alta disponibilidade. Se você estiver usando a distribuição MapR, defina o URI do JobTracker no seguinte formato:
maprfs:///
Diretório do Depósito Hive no HDFS
O caminho absoluto do arquivo HDFS do banco de dados padrão para o depósito, que é local para o cluster. Por exemplo, o seguinte caminho de arquivo especifica um depósito de local:
/user/hive/warehouse
No Cloudera CDH, se o Modo de Execução Metastore for remoto, o caminho do arquivo deverá corresponder ao caminho de arquivo especificado pelo Serviço de Metastore Hive no cluster Hadoop.
Para MapR, use o valor especificado para a propriedade
hive.metastore.warehouse.dir
em
hive-site.xml
. É possível encontrar
hive-site.xml
no seguinte diretório do nó que executa o HiveServer2:
/opt/mapr/hive/hive-0.13/conf
.
Propriedades Avançadas do Hive/Hadoop
Configura ou substitui propriedades de cluster do Hive ou Hadoop em hive-site.xml na máquina em que o Serviço de Integração de Dados é executado. É possível especificar várias propriedades.
Selecione
Editar
para especificar o nome e o valor para a propriedade. A propriedade é exibida no seguinte formato:
<property1>=<value>
Onde
  • <property1> é uma propriedade do Hive ou Hadoop em hive-site.xml.
  • <value> é o valor da propriedade do Hive ou Hadoop.
Quando você especifica várias propriedades,
&:
aparece como o separador de propriedade.
O tamanho máximo para o formato é 1 MB.
Se você inserir uma propriedade necessária para uma conexão do Hive, ela substituirá a propriedade configurada em Propriedades Avançadas do Hive/Hadoop.
O Serviço de Integração de Dados adiciona ou define essas propriedades para cada trabalho de redução e mapa. Você pode verificar essas propriedades no JobConf de cada trabalho mapeador e redutor. Acesse o JobConf de cada trabalho na URL de JobTracker em cada trabalho de redução e mapa.
O Serviço de Integração de Dados grava mensagens para essas propriedades nos logs do Serviço de Integração de Dados. O Serviço de Integração de Dados deve ter o nível de rastreamento de log definido para registrar cada linha ou deve ter o nível de rastreamento de log definido como rastreamento de inicialização detalhado.
Por exemplo, especifique as seguintes propriedades para controlar e limitar o número de redutores para executar um trabalho de mapeamento:
mapred.reduce.tasks=2&:hive.exec.reducers.max=10
Codec de Compactação de Tabela Temporária
Biblioteca de compactação do Hadoop para um nome de classe do codec de compactação.
Nome de Classe do Codec
O nome de classe do codec que permite a compactação de dados e melhora o desempenho em tabelas de preparação temporárias.
Modo de Execução Metastore
Controla se deve se conectar a um metastore remoto ou local. Por padrão, local é selecionado. Para um metastore local, especifique o URI do Banco de Dados Metastore, o Driver, o Nome de Usuário e a Senha. Para um metastore remoto, você deve especificar somente o
URI metastore remota
.
URI de Banco de Dados Metastore
O URI da conexão JDBC usada para acessar o armazenamento de dados em uma configuração local metastore. Use o seguinte URI de conexão:
jdbc:<datastore type>://<node name>:<port>/<database name>
onde
  • <node name> é o nome de host ou endereço IP do armazenamento de dados.
  • <data store type> é o tipo de armazenamento de dados.
  • <port> é a porta na qual o armazenamento de dados ouve as chamadas de procedimento remoto (RPC).
  • <database name> é o nome do banco de dados.
Por exemplo, o seguinte URI especifica uma metastore local que usa MySQL como um armazenamento de dados:
jdbc:mysql://hostname23:3306/metastore
Para MapR, use o valor especificado para a propriedade
javax.jdo.option.ConnectionUR
L em
hive-site.xml
. É possível encontrar hive-site.xml no seguinte diretório do nó em que HiveServer2 é executado: /opt/mapr/hive/hive-0.13/conf.
Driver de Banco de Dados Metastore
O nome de classe do driver JDBC para o armazenamento de dados. Por exemplo, o seguinte nome de classe especifica um driver MySQL:
com.mysql.jdbc.Driver
Para MapR, use o valor especificado para a propriedade
javax.jdo.option.ConnectionDriverName
em
hive-site.xml
. É possível encontrar
hive-site.xml
no seguinte diretório do nó em que HiveServer2 é executado:
/opt/mapr/hive/hive-0.13/conf
.
Nome de usuário do Banco de Dados Metastore
O nome de usuário do banco de dados metastore.
Para MapR, use o valor especificado para a propriedade
javax.jdo.option.ConnectionUserName
em
hive-site.xml
. É possível encontrar
hive-site.xml
no seguinte diretório do nó em que HiveServer2 é executado:
/opt/mapr/hive/hive-0.13/conf
.
Senha do Banco de Dados Metastore
A senha do nome de usuário metastore.
Para MapR, use o valor especificado para a propriedade
javax.jdo.option.ConnectionPassword
em
hive-site.xml
. É possível encontrar
hive-site.xml
no seguinte diretório do nó em que HiveServer2 é executado:
/opt/mapr/hive/hive-0.13/conf
.
URI Metastore Remota
O URI metastore usada para acessar metadados em uma configuração metastore remota. Para um metastore remoto, especifique os detalhes do servidor Thrift.
Use o seguinte URI de conexão:
thrift://<hostname>:<port>
onde
  • <hostname> é o nome ou endereço IP do servidor metastore Thrift.
  • <port> é a porta na qual o servidor Thrift está escutando.
Para MapR, use o valor especificado para a propriedade
hive.metastore.uris
em
hive-site.xml
. É possível encontrar
hive-site.xml
no seguinte diretório do nó em que HiveServer2 é executado:
/opt/mapr/hive/hive-0.13/conf
.