Sumário

Search

  1. Prefácio
  2. Entendendo Domínios
  3. Gerenciando Sua Conta
  4. Usando o Informatica Administrator
  5. Usando a Exibição Domínio
  6. Gerenciamento de Domínio
  7. Nós
  8. Alta Disponibilidade
  9. Conexões
  10. Propriedades de Conexão
  11. Agendamentos
  12. Exportação e importação do objeto de domínio
  13. Gerenciamento de licenças
  14. Monitoramento
  15. Gerenciamento de Logs
  16. Relatórios de domínio
  17. Diagnóstico de nó
  18. Noções Básicas de Globalização
  19. Apêndice A: Páginas de Códigos
  20. Apêndice B: Funções personalizadas
  21. Apêndice C: Conectividade da Plataforma Informatica
  22. Apêndice D: Configurar o Navegador da Web

Guia do Administrador

Guia do Administrador

Propriedades da Conexão Hive

Propriedades da Conexão Hive

Use a conexão do Hive para acessar dados do Hive. Uma conexão do Hive é uma conexão do tipo de banco de dados. Você pode criar e gerenciar uma conexão do Hive na ferramenta Administrator, na ferramenta Analyst ou na Developer tool. As propriedades de conexão Hive fazem distinção entre maiúsculas e minúsculas, salvo observação contrária.
A ordem das propriedades da conexão pode variar dependendo da ferramenta com a qual você as exibe.
A tabela a seguir descreve as propriedades de conexão do Hive:
Propriedade
Descrição
Nome
O nome da conexão. O nome não faz distinção entre maiúsculas e minúsculas, e deve ser exclusivo no domínio. Você pode alterar essa propriedade após criar a conexão. O nome não pode exceder 128 caracteres, conter espaços nem conter os seguintes caracteres especiais:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
Cadeia que o Serviço de Integração de Dados usa para identificar a conexão. O ID não diferencia maiúsculas de minúsculas. Ele deve ser de 255 caracteres ou menos e deve ser exclusivo no domínio. Você não poderá alterar essa propriedade depois de criar a conexão. O valor padrão é o nome da conexão.
Descrição
A descrição da conexão. A descrição não pode conter mais de 4.000 caracteres.
Localização
O domínio no qual você deseja criar a conexão. Não é válido para a ferramenta Analyst.
Tipo
O tipo de conexão. Selecione o Hive.
Nome de Usuário do LDAP
O nome de usuário do LDAP que o Serviço de Integração de Dados representa para executar mapeamentos em um cluster Hadoop. O nome de usuário depende da cadeia de conexão JDBC que você especificar na Cadeia de Conexão de Metadados ou na Cadeia de Conexão de Acesso aos Dados do ambiente nativo.
Se o cluster Hadoop usar a autenticação Kerberos, o nome principal da cadeia de conexão JDBC e o nome de usuário devem ser os mesmos. Caso contrário, o nome de usuário dependerá do comportamento do driver JDBC. Com driver Hive JDBC, você pode especificar um nome de usuário de várias maneiras e o nome de usuário pode tornar-se uma parte do URL JDBC.
Se o cluster Hadoop não usar a autenticação Kerberos, o nome de usuário dependerá do comportamento do driver JDBC.
Se você não especificar um nome de usuário, o cluster Hadoop autenticará trabalhos com base nos seguintes critérios:
  • O cluster Hadoop não usa a autenticação Kerberos. Ele autentica trabalhos com base no nome de usuário do perfil do sistema operacional da máquina que executa o Serviço de Integração de Dados.
  • O cluster Hadoop usa a autenticação Kerberos. Ele autentica trabalhos com base no SPN do Serviço de Integração de Dados. O nome de usuário do LDAP será ignorado.
Senha
A senha para o nome de usuário do LDAP.
SQL de Ambiente
Comandos SQL para definir o ambiente Hadoop. No tipo de ambiente nativo, o Serviço de Integração de Dados executa o SQL de ambiente cada vez que ele cria uma conexão para Hive metastore. Se a conexão do Hive for usada para executar perfis em um cluster Hadoop, o Serviço de Integração de Dados executará o SQL de ambiente no início de cada sessão do Hive.
Aplicam-se as seguintes regras e diretrizes para o uso do SQL de ambiente nos modos de conexão:
  • Use o ambiente SQL para especificar as consultas Hive.
  • Use o SQL de ambiente para configurar o classpath para funções Hive definidas pelo usuário e, em seguida, use o SQL de ambiente ou PreSQL para especificar as funções Hive definidas pelo usuário. Você não pode usar PreSQL nas propriedades de objeto de dados para especificar o classpath. Se você usar as funções definidas pelo usuário do Hive, deverá copiar os arquivos .jar para o seguinte diretório:
    <Diretório de instalação do Informatica>/services/shared/hadoop/<Nome de distribuição do Hadoop>/extras/hive-auxjars
  • Você pode usar o SQL de ambiente para definir os parâmetros Hadoop ou Hive que você deseja usar nos comandos PreSQL ou em consultas personalizadas.
  • Se você usar vários valores para a propriedade SQL de ambiente, verifique se não há nenhum espaço entre os valores.
Caractere do Identificador de SQL
O tipo de caractere usado para identificar caracteres especiais e palavras-chave SQL reservadas, como WHERE. O Serviço de Integração de Dados coloca o caractere selecionado em torno de caracteres especiais e palavras-chave SQL reservadas. O Serviço de Integração de Dados também usa esse caractere para a propriedade
Suporte a identificadores de letras maiúsculas e minúsculas
.

Propriedades para Acessar o Hive como Origem ou Destino

A tabela a seguir descreve as propriedades de conexão que você configura para acessar o Hive como origem ou destino:
Propriedade
Descrição
Nome da Classe do Driver JDBC
O nome da classe do driver JDBC. Se você deixar essa opção em branco, a Developer tool usará o driver JDBC padrão do Apache Hive fornecido com a distribuição. Se o driver JDBC padrão do Apache Hive não atender às suas necessidades, você poderá substituí-lo por um driver JDBC do Hive de terceiros especificando o nome da classe de driver.
Cadeia de Conexão de Metadados
O URI da conexão JDBC usada para acessar os metadados do servidor do Hadoop.
Você pode usar o PowerExchange for Hive para se comunicar com um serviço HiveServer ou HiveServer2. Para se conectar ao HiveServer, especifique a Cadeia de conexão no seguinte formato:
jdbc:hive2://<hostname>:<port>/<db>
Onde
  • <hostname> é o nome ou endereço IP da máquina na qual o HiveServer2 é executado.
  • <port> é o número da porta de escuta do HiveServer2.
  • <db> é o nome do banco de dados ao qual você deseja se conectar. Se você não fornecer o nome do banco de dados, o Serviço de Integração de Dados usará os detalhes do banco de dados padrão.
Para se conectar ao HiveServer 2, use o formato de cadeia de conexão que o Apache Hive implementa na Distribuição específica do Hadoop. Para obter mais informações sobre os formatos de cadeia de conexão do Apache Hive, consulte a documentação do Apache Hive.
Para representação de usuário, você deve adicionar
hive.server2.proxy.user=<xyz>
ao URI de conexão do JDBC. Se você não configurar a representação do usuário, as credenciais do usuário atual serão usadas para se conectar ao HiveServer2.
Se o cluster Hadoop usar a autenticação SSL ou TLS, você deverá adicionar
ssl=true
ao URI de conexão JDBC. Por exemplo:
jdbc:hive2://<hostname>:<port>/<db>;ssl=true
Se você usar o certificado autoassinado para autenticação SSL ou TLS, verifique se o arquivo de certificado estará disponível na máquina cliente e na máquina do Serviço de Integração de Dados. Para obter mais informações, consulte o
Guia do Data Engineering Integration
.
Ignorar Servidor Hive JDBC
O modo do driver JDBC. Selecione a caixa de seleção para usar o modo do driver JDBC incorporado.
Para usar o modo incorporado JDBC, realize as seguintes tarefas:
  • Verifique se o cliente Hive e serviços Informatica estão instalados na mesma máquina.
  • Configure as propriedades de conexão do Hive para executar mapeamentos em um cluster Hadoop.
Se você escolher o modo não incorporado, configure a Cadeia de Conexão do Acesso a Dados.
A Informatica recomenda que você use o modo JDBC incorporado.
Autorização Granulada
Quando você seleciona a opção para observar a autorização granulada fina em uma fonte Hive, o mapeamento observa o seguinte:
  • Restrições no nível de linha e coluna. Aplica-se aos clusters Hadoop onde os modos de segurança Sentry ou Ranger estão habilitados.
  • Regras de mascaramento de dados. Aplica-se a regras de mascaramento definidas em colunas que contêm dados confidenciais pelo Dynamic Data Masking.
Se você não selecionar a opção, os mecanismos Blaze e Spark ignorarão as restrições e as regras de mascaramento, e os resultados incluirão dados restritos ou sensíveis.
Cadeia de Conexão de Acesso aos Dados
A cadeia de conexão para acessar dados do armazenamento de dados Hadoop. Para se conectar ao HiveServer, especifique a cadeia de conexão do modo JDBC não incorporado no seguinte formato:
jdbc:hive2://<hostname>:<port>/<db>
Onde
  • <hostname> é o nome ou endereço IP da máquina na qual o HiveServer2 é executado.
  • <port> é o número da porta de escuta do HiveServer2.
  • <db> é o banco de dados no qual você deseja se conectar. Se você não fornecer o nome do banco de dados, o Serviço de Integração de Dados usará os detalhes do banco de dados padrão.
Para se conectar ao HiveServer 2, use o formato de cadeia de conexão que o Apache Hive implementa na Distribuição específica do Hadoop. Para obter mais informações sobre os formatos de cadeia de conexão do Apache Hive, consulte a documentação do Apache Hive.
Para representação de usuário, você deve adicionar
hive.server2.proxy.user=<xyz>
ao URI de conexão do JDBC. Se você não configurar a representação do usuário, as credenciais do usuário atual serão usadas para se conectar ao HiveServer2.
Se o cluster Hadoop usar a autenticação SSL ou TLS, você deverá adicionar
ssl=true
ao URI de conexão JDBC. Por exemplo:
jdbc:hive2://<hostname>:<port>/<db>;ssl=true
Se você usar o certificado autoassinado para autenticação SSL ou TLS, verifique se o arquivo de certificado estará disponível na máquina cliente e na máquina do Serviço de Integração de Dados. Para obter mais informações, consulte o
Guia do Data Engineering Integration
.
Diretório de Preparação do Hive no HDFS
Diretório HDFS para tabelas de preparação do Hive. Você deve conceder permissão de execução ao usuário de representação do Hadoop e aos usuários de representação de mapeamento.
Essa opção é aplicável e necessária quando você grava dados em um destino Hive no ambiente nativo.
Nome do Banco de Dados de Preparação do Hive
Espaço de nome para tabelas de preparação do Hive.
O Nome do Banco de Dados de Preparação do Hive é atualizado automaticamente a partir da Sequência de Conexão de Acesso a Dados. Se você desejar substituir o nome padrão, precisará configurar o Nome do Banco de Dados de Preparação do Hive na conexão do Hive.
Esta opção é aplicável quando você executa um mapeamento no ambiente nativo para gravar dados em um destino Hive.
Se você executar o mapeamento no mecanismo Blaze ou Spark, não será necessário configurar o nome do banco de dados de preparação do Hive na conexão do Hive. O Serviço de Integração de Dados usa o valor que você configura na conexão do Hadoop.