Você pode executar um perfil de coluna em objetos de dados que usam o Sqoop. Depois de escolher o Hadoop como ambiente de validação, você pode selecionar o mecanismo Blaze ou Spark na conexão Hadoop para executar os perfis de coluna.
Ao executar um perfil de coluna em um objeto de dados lógicos ou um objeto de dados personalizados, você pode configurar o argumento num-mappers para obter paralelismo e otimizar o desempenho. Você também deve configurar o argumento split-by para especificar a coluna com base em qual Sqoop deve dividir as unidades de trabalho.
Utilize a seguinte sintaxe:
--split-by <nome_coluna>
Se a chave primária não tiver uma distribuição uniforme dos valores entre o intervalo mínimo e máximo, você poderá configurar o argumento split-by para especificar outra coluna que tenha uma distribuição equilibrada dos dados para dividir as unidades de trabalho.
Se você não definir a coluna split-by, o Sqoop dividirá as unidades de trabalho com base nos seguintes critérios:
Se o objeto de dados contiver uma única chave primária, o Sqoop a usará como a coluna split-by.
Se o objeto de dados contiver uma chave primária composta, o Sqoop assumirá como padrão o comportamento de lidar com chaves primárias compostas sem o argumento split-by. Consulte a documentação do Sqoop para obter mais informações.
Se um objeto de dados contiver duas tabelas com uma coluna idêntica, você deverá definir a coluna split-by com um nome de tabela qualificado. Por exemplo, se o nome da tabela for CUSTOMER e o nome da coluna for FULL_NAME, defina a coluna split-by da seguinte maneira:
--split-by CUSTOMER.FULL_NAME
Se o objeto de dados não contiver uma chave primária, o valor dos argumentos m e mappers-num assumirá 1 como padrão.
Quando você usa o Cloudera Connector Powered by Teradata ou o Hortonworks Connector for Teradata, e a tabela Teradata não contém uma chave primária, o argumento split-by é necessário.