Sumário

Search

  1. Prefácio
  2. Parte   1: Introdução à Descoberta de Dados
  3. Parte   2: Descoberta de Dados com o Informatica Analyst
  4. Parte   3: Descoberta de Dados com o Informatica Developer
  5. Apêndice A: Suporte a funções com base na conexão do warehouse de criação de perfil

Guia de Descoberta de Dados

Guia de Descoberta de Dados

Opções de Amostragem

Opções de Amostragem

Opções de amostragem determinam o número de linhas nas quais a Developer tool executa um perfil. É possível configurar opções de amostragem ao definir ou executar um perfil.
A tabela a seguir descreve as opções de amostragem para um perfil:
Propriedade
Descrição
Todas as Linhas
Executa um perfil em todas as linhas no objeto de dados.
Com suporte no ambiente de tempo de execução Nativo, Blaze,Spark e Databricks.
Fazer amostragem das primeiras <numbernúmero> linhas
Executa um perfil nas linhas de amostra desde o início das linhas no objeto de dados. É possível escolher um máximo de 2.147.483.647 linhas.
Com suporte no ambiente de tempo de execução Nativeo e Blaze.
Amostragem aleatória de <numbernúmero> linhas
Executa um perfil em um número de linhas escolhido aleatoriamente no objeto de dados. É possível escolher um máximo de 2.147.483.647 linhas.
Com suporte no ambiente de tempo de execução Nativeo e Blaze.
Amostragem Aleatória (Automática)
Executa um perfil nas linhas de amostra calculadas com base no número de linhas no objeto de dados.
Com suporte no ambiente de tempo de execução Nativeo e Blaze.
Limitar n <número> linhas
Executa um perfil com base no número de linhas no objeto de dados. Quando você opta por executar um perfil no ambiente de validação Hadoop, o mecanismo Spark coleta amostras de várias partições do objeto de dados e envia essas amostras a um único nó para calcular o tamanho da amostra. A opção de amostragem Limitar n oferece suporte a bancos de dados Oracle, SQL Server e DB2. Você não pode aplicar o filtro Avançado com a opção de amostragem Limitar n.
Com suporte no ambiente de tempo de execução Spark.
Porcentagem Aleatória
Executa um perfil em uma porcentagem de linhas no objeto de dados.
Com suporte no ambiente de tempo de execução do Spark e do Databricks.
Exclui tipos de dados e domínios de dados aprovados da inferência de tipo de dados e de domínio de dados nas execuções de perfil subsequentes
Exclui o tipo de dados ou o domínio de dados aprovado da inferência de tipo de dados e domínio dados a partir da próxima execução de perfil.
Depois que você opta por executar o perfil em uma amostragem aleatória de linhas, o algoritmo de amostragem aleatória escolhe as linhas aleatoriamente no objeto de dados no qual o perfil será executado. Quando você escolhe uma opção de amostragem aleatória para perfis de coluna, a Developer tool realiza a busca detalhada nos dados de fase. Isso pode afetar o desempenho da busca detalhada. Quando você escolhe uma opção de amostragem aleatória para perfis de descoberta do domínio de dados, a Developer tool realiza a busca detalhada nos dados ativos.