Sumário

Search

  1. Versão 10.4.0
  2. Versão 10.2.2
  3. Versão 10.2.1
  4. Versão 10.2
  5. Versão 10.1.1
  6. Versão 10.1

Intelligent Data Lake

Intelligent Data Lake

Com o advento de tecnologias de big data, várias organizações estão adotando um novo modelo de armazenamento de informações chamado data lake para resolver os desafios de gerenciamento de dados. O modelo data lake está sendo adotado por diversos casos de uso, como business intelligence, análise, conformidade regulamentar e detecção de fraudes.
Um data lake é um repositório compartilhado de dados brutos e corporativos de uma variedade de fontes. Muitas vezes, é compilado ao longo de um cluster Hadoop distribuído, que fornece uma camada de computação e de persistência econômica e escalonável. O Hadoop torna possível armazenar grandes volumes de dados estruturados e não estruturados a partir de vários sistemas corporativos dentro e fora da organização. Os dados no lake podem incluir dados brutos e refinados, dados mestre e dados transacionais, arquivos de log e dados da máquina.
As organizações também estão procurando fornecer maneiras para diferentes tipos de usuários acessarem e trabalharem com todos os dados na empresa, dentro do lake de dados Hadoop e também com os dados fora do lake. Elas querem que os analistas de dados e os cientistas de dados sejam capazes de usar o data lake para análise de autoatendimento ad-hoc para impulsionar a inovação de negócios, sem expor a complexidade das tecnologias subjacentes ou a necessidade de habilidades de codificação. As equipes de governança de dados e de TI desejam monitorar dados relacionados às atividades do usuário na empresa. Sem uma fundação de governança e um gerenciamento de dados fortes habilitados pela inteligência, os data lakes podem se transformar em swamps de dados.
Na versão 10.1, a Informatica apresenta o Intelligent Data Lake, um novo produto para ajudar os clientes a gerarem mais valor a partir do seu data lake baseado no Hadoop e disponibilizar dados para todos os usuários na organização.
O Intelligent Data Lake é uma descoberta de big data de autoatendimento colaborativo e uma preparação para analistas de dados e cientistas de dados. Ele permite que os analistas rapidamente descubram e transformem dados brutos em insight e permite que a TI garanta qualidade, visibilidade e governança. Com o Intelligent Data Lake, os analistas passam mais tempo na análise e menos tempo em localizar e preparar dados.
O Intelligent Data Lake fornece os seguintes benefícios:
  • Os analistas de dados podem encontrar e explorar, de forma rápida e fácil, ativos de dados confiáveis dentro e fora do data lake usando a pesquisa semântica e as recomendações inteligentes.
  • Os analistas de dados podem transformar, limpar e aprimorar dados no data lake usando uma interface de planilha do tipo Excel, em forma de autoatendimento, sem precisar de habilidades de codificação.
  • Os analistas de dados podem publicar dados e compartilhar conhecimento com o restante da comunidade, e analisar os dados usando a opção de ferramentas analíticas e BI.
  • As equipes de governança e de TI podem monitorar a atividade do usuário relacionada ao uso de dados no lake.
  • A TI pode rastrear a linhagem de dados para verificar se os dados são provenientes das origens certas e estão indo para os destinos certos.
  • A TI pode impor segurança e governança apropriadas no data lake
  • A TI pode operacionalizar o trabalho feito pelos analistas de dados em um processo de entrega de dados que pode ser repetido e programado.
O Intelligent Data Lake apresenta os seguintes recursos:
Pesquisar
  • Localize os dados no lake, bem como em outros sistemas corporativos usando a pesquisa inteligente e os resultados com base na inferência.
  • Filtre ativos com base em facetas dinâmicas usando os atributos do sistema e as classificações definidas personalizadas.
Explorar
  • Obtenha uma visão geral de ativos, incluindo atributos personalizados, estatísticas de criação de perfil para qualidade de dados, domínio de dados para conteúdo comercial e informações de uso.
  • Adicione informações de contexto comercial por marcação e enriquecimento de metadados de crowd-sourcing.
  • Visualize dados de amostra para perceber os ativos de dados com base em credenciais de usuário.
  • Obtenha a linhagem de ativos para entender de onde os dados são provenientes e para onde eles estão indo, e para criar confiança nos dados.
  • Saiba como os ativos de dados estão relacionados a outros ativos na empresa com base em associações com outras tabelas ou exibições, usuários, relatórios e domínios de dados.
  • Descubra progressivamente ativos adicionais com exibições de linhagem e de relacionamento.
Obter
  • Faça upload de arquivos delimitados pessoais ao lake usando uma interface com base no assistente.
    As tabelas do Hive são automaticamente criadas para os uploads no formato mais ideal.
  • Crie, acrescente ou substitua ativos para dados carregados.
Colaborar
  • Organize o trabalho adicionando ativos de dados para projetos.
  • Adicione colaboradores para projetos com diferentes funções, como coproprietário, editor ou visualizador, e com diferentes privilégios.
Recomendações
  • Melhore a produtividade usando recomendações com base no comportamento e no conhecimento compartilhado de outros usuários.
  • Obtenha recomendações para ativos alternativos que podem ser usados em um projeto.
  • Obtenha recomendações para ativos adicionais que podem ser usados em um projeto.
  • As recomendações mudam com base no que está no projeto.
Preparar
  • Use um ambiente do tipo Excel para especificar interativamente a transformação usando dados de amostra.
  • Consulte visões gerais a nível da coluna e da planilha, incluindo distribuições de valor e distribuições numéricas e de data.
  • Adicione transformações na forma de etapas de fórmulas e veja os resultados imediatamente nas planilhas.
  • Execute a limpeza de dados a nível da coluna e a transformação de dados usando cadeia, matemática, data e operações lógicas.
  • Execute operações a nível de planilha para combinar, mesclar, agregar ou filtrar dados.
  • Atualize a amostra na planilha se os dados nas tabelas subjacentes mudarem.
  • Derive planilhas de planilhas existentes e receba alertas quando as planilhas pai mudarem.
  • Todas as etapas de transformação são armazenadas na fórmula que pode ser reproduzida interativamente.
Publicar
  • Use a potência do sistema Hadoop subjacente para executar a transformação de dados em larga escala sem codificação ou scripts.
  • Execute as etapas de preparação de dados em grandes conjuntos de dados reais no lake para criar novos ativos de dados.
  • Publique os dados no lake como uma tabela Hive no banco de dados desejado.
  • Crie, anexe ou substitua ativos para dados publicados.
Operações de Ativo de Dados
  • Exporte dados da lake para um arquivo CSV.
  • Copie dados para outro banco de dados ou tabela.
  • Exclua os ativos de dados, se permitido, por credenciais de usuário.
Minhas Atividades
  • Mantenha o rastreio de atividades de upload e seus status.
  • Mantenha o rastreio de publicações e seus status.
  • Exiba arquivos de log em caso de erros e compartilhar com os administradores de TI, se necessário.
Monitoramento de TI
  • Mantenha rastreio do usuário, dos ativos de dados e das atividades de projeto compilando relatórios na parte superior do banco de dados de auditoria.
  • Localize informações, como os usuários ativos principais, os conjuntos de dados principais por tamanho, atualizações anteriores, ativos mais reutilizados e projetos mais ativos.
Operacionalização de TI
  • Operacionalize o trabalho ad-hoc feito por analistas.
  • Use o User Informatica Developer para personalizar e otimizar os mapeamentos do Informatica Big Data Management traduzidos a partir de fórmulas criadas pelos analistas.
  • Implante, agende e monitore os mapeamentos do Informatica Big Data Management para garantir que os ativos de dados sejam entregues na hora certa para os destinos certos.
  • Certifique-se de que os direitos de acesso em vários bancos de dados e tabelas no data lake estejam de acordo com as políticas de segurança.