Sumário

Search

  1. Prefácio
  2. Parte   1: Introdução à Descoberta de Dados
  3. Parte   2: Descoberta de Dados com o Informatica Analyst
  4. Parte   3: Descoberta de Dados com o Informatica Developer
  5. Apêndice A: Suporte a funções com base na conexão do warehouse de criação de perfil

Guia de Descoberta de Dados

Guia de Descoberta de Dados

Configurações de Perfil de Coluna

Configurações de Perfil de Coluna

As opções de amostragem determinam se a ferramenta Analyst executa um perfil de coluna em todas as linhas das fontes de dados ou um número limitado de linhas.
A seguinte tabela descreve as configurações de perfil de coluna que você pode definir para um perfil de descoberta empresarial:
Opção
Descrição
Ativar criação de perfil de coluna
Executa um perfil de coluna como parte da descoberta empresarial.
Exclui tipos de dados e domínios de dados aprovados da inferência de tipo de dados e de domínio de dados nas execuções de perfil subsequentes
Exclui o tipo de dados ou o domínio de dados aprovado da inferência de tipo de dados e domínio dados a partir da próxima execução de perfil.
A seguinte tabela descreve a opção de ambiente de tempo de execução que você pode configurar para um perfil de descoberta empresarial:
Opção
Descrição
Native
A ferramenta Analyst envia os trabalhos de perfil ao Módulo do Serviço de Criação de Perfil. Em seguida, o Módulo do Serviço de Criação de Perfil decompõe os trabalhos de perfil em um conjunto de mapeamentos. O Serviço de Integração de Dados executa esses mapeamentos e grava os resultados do perfil no warehouse de criação de perfil.
Blaze
O Serviço de Integração de Dados envia a lógica de perfil por push para o mecanismo Blaze no cluster Hadoop para executar perfis.
Spark
O Serviço de Integração de Dados envia a lógica de perfil por push para o mecanismo Spark no cluster Hadoop para executar perfis.
A seguinte tabela descreve as opções de amostragem que você pode definir para um perfil de descoberta empresarial:
Opção
Descrição
Todas as Linhas
Executa um perfil de coluna em todas as linhas da fonte de dados.
Com suporte no ambiente de tempo de execução Nativo, Blaze e Spark.
Primeiras <número> Linhas
Executa um perfil nas linhas de amostra desde o início das linhas no objeto de dados. É possível escolher um máximo de 2.147.483.647 linhas.
Com suporte no ambiente de tempo de execução Nativo e Blaze.
Limitar n <número> Linhas
Executa um perfil com base no número de linhas no objeto de dados. Quando você opta por executar um perfil no ambiente de validação Hadoop, o mecanismo Spark coleta amostras de várias partições do objeto de dados e envia essas amostras a um único nó para calcular o tamanho da amostra. A opção de amostragem Limitar n oferece suporte a bancos de dados Oracle, SQL Server e DB2. Você não pode aplicar o filtro Avançado com a opção de amostragem Limitar n. Você pode selecionar no máximo 2.147.483.647 linhas.
Com suporte no ambiente de tempo de execução Spark.
Porcentagem aleatória
Executa um perfil em uma porcentagem de linhas no objeto de dados.
Com suporte no ambiente de tempo de execução Spark.