Com o advento de tecnologias de big data, várias organizações estão adotando um novo modelo de armazenamento de informações chamado data lake para resolver os desafios de gerenciamento de dados. O modelo data lake está sendo adotado por diversos casos de uso, como business intelligence, análise, conformidade regulamentar e detecção de fraudes.
Um data lake é um repositório compartilhado de dados brutos e corporativos de uma variedade de fontes. Muitas vezes, é compilado ao longo de um cluster Hadoop distribuído, que fornece uma camada de computação e de persistência econômica e escalonável. O Hadoop torna possível armazenar grandes volumes de dados estruturados e não estruturados a partir de vários sistemas corporativos dentro e fora da organização. Os dados no lake podem incluir dados brutos e refinados, dados mestre e dados transacionais, arquivos de log e dados da máquina.
As organizações também estão procurando fornecer maneiras para diferentes tipos de usuários acessarem e trabalharem com todos os dados na empresa, dentro do lake de dados Hadoop e também com os dados fora do lake. Elas querem que os analistas de dados e os cientistas de dados sejam capazes de usar o data lake para análise de autoatendimento ad-hoc para impulsionar a inovação de negócios, sem expor a complexidade das tecnologias subjacentes ou a necessidade de habilidades de codificação. As equipes de governança de dados e de TI desejam monitorar dados relacionados às atividades do usuário na empresa. Sem uma fundação de governança e um gerenciamento de dados fortes habilitados pela inteligência, os data lakes podem se transformar em swamps de dados.
Na versão 10.1, a Informatica apresenta o Intelligent Data Lake, um novo produto para ajudar os clientes a gerarem mais valor a partir do seu data lake baseado no Hadoop e disponibilizar dados para todos os usuários na organização.
O Intelligent Data Lake é uma descoberta de big data de autoatendimento colaborativo e uma preparação para analistas de dados e cientistas de dados. Ele permite que os analistas rapidamente descubram e transformem dados brutos em insight e permite que a TI garanta qualidade, visibilidade e governança. Com o Intelligent Data Lake, os analistas passam mais tempo na análise e menos tempo em localizar e preparar dados.
O Intelligent Data Lake fornece os seguintes benefícios:
Os analistas de dados podem encontrar e explorar, de forma rápida e fácil, ativos de dados confiáveis dentro e fora do data lake usando a pesquisa semântica e as recomendações inteligentes.
Os analistas de dados podem transformar, limpar e aprimorar dados no data lake usando uma interface de planilha do tipo Excel, em forma de autoatendimento, sem precisar de habilidades de codificação.
Os analistas de dados podem publicar dados e compartilhar conhecimento com o restante da comunidade, e analisar os dados usando a opção de ferramentas analíticas e BI.
As equipes de governança e de TI podem monitorar a atividade do usuário relacionada ao uso de dados no lake.
A TI pode rastrear a linhagem de dados para verificar se os dados são provenientes das origens certas e estão indo para os destinos certos.
A TI pode impor segurança e governança apropriadas no data lake
A TI pode operacionalizar o trabalho feito pelos analistas de dados em um processo de entrega de dados que pode ser repetido e programado.
O Intelligent Data Lake apresenta os seguintes recursos:
Pesquisar
Localize os dados no lake, bem como em outros sistemas corporativos usando a pesquisa inteligente e os resultados com base na inferência.
Filtre ativos com base em facetas dinâmicas usando os atributos do sistema e as classificações definidas personalizadas.
Explorar
Obtenha uma visão geral de ativos, incluindo atributos personalizados, estatísticas de criação de perfil para qualidade de dados, domínio de dados para conteúdo comercial e informações de uso.
Adicione informações de contexto comercial por marcação e enriquecimento de metadados de crowd-sourcing.
Visualize dados de amostra para perceber os ativos de dados com base em credenciais de usuário.
Obtenha a linhagem de ativos para entender de onde os dados são provenientes e para onde eles estão indo, e para criar confiança nos dados.
Saiba como os ativos de dados estão relacionados a outros ativos na empresa com base em associações com outras tabelas ou exibições, usuários, relatórios e domínios de dados.
Descubra progressivamente ativos adicionais com exibições de linhagem e de relacionamento.
Obter
Faça upload de arquivos delimitados pessoais ao lake usando uma interface com base no assistente.
As tabelas do Hive são automaticamente criadas para os uploads no formato mais ideal.
Crie, acrescente ou substitua ativos para dados carregados.
Colaborar
Organize o trabalho adicionando ativos de dados para projetos.
Adicione colaboradores para projetos com diferentes funções, como coproprietário, editor ou visualizador, e com diferentes privilégios.
Recomendações
Melhore a produtividade usando recomendações com base no comportamento e no conhecimento compartilhado de outros usuários.
Obtenha recomendações para ativos alternativos que podem ser usados em um projeto.
Obtenha recomendações para ativos adicionais que podem ser usados em um projeto.
As recomendações mudam com base no que está no projeto.
Preparar
Use um ambiente do tipo Excel para especificar interativamente a transformação usando dados de amostra.
Consulte visões gerais a nível da coluna e da planilha, incluindo distribuições de valor e distribuições numéricas e de data.
Adicione transformações na forma de etapas de fórmulas e veja os resultados imediatamente nas planilhas.
Execute a limpeza de dados a nível da coluna e a transformação de dados usando cadeia, matemática, data e operações lógicas.
Execute operações a nível de planilha para combinar, mesclar, agregar ou filtrar dados.
Atualize a amostra na planilha se os dados nas tabelas subjacentes mudarem.
Derive planilhas de planilhas existentes e receba alertas quando as planilhas pai mudarem.
Todas as etapas de transformação são armazenadas na fórmula que pode ser reproduzida interativamente.
Publicar
Use a potência do sistema Hadoop subjacente para executar a transformação de dados em larga escala sem codificação ou scripts.
Execute as etapas de preparação de dados em grandes conjuntos de dados reais no lake para criar novos ativos de dados.
Publique os dados no lake como uma tabela Hive no banco de dados desejado.
Crie, anexe ou substitua ativos para dados publicados.
Operações de Ativo de Dados
Exporte dados da lake para um arquivo CSV.
Copie dados para outro banco de dados ou tabela.
Exclua os ativos de dados, se permitido, por credenciais de usuário.
Minhas Atividades
Mantenha o rastreio de atividades de upload e seus status.
Mantenha o rastreio de publicações e seus status.
Exiba arquivos de log em caso de erros e compartilhar com os administradores de TI, se necessário.
Monitoramento de TI
Mantenha rastreio do usuário, dos ativos de dados e das atividades de projeto compilando relatórios na parte superior do banco de dados de auditoria.
Localize informações, como os usuários ativos principais, os conjuntos de dados principais por tamanho, atualizações anteriores, ativos mais reutilizados e projetos mais ativos.
Operacionalização de TI
Operacionalize o trabalho ad-hoc feito por analistas.
Use o User Informatica Developer para personalizar e otimizar os mapeamentos do Informatica Big Data Management traduzidos a partir de fórmulas criadas pelos analistas.
Implante, agende e monitore os mapeamentos do Informatica Big Data Management para garantir que os ativos de dados sejam entregues na hora certa para os destinos certos.
Certifique-se de que os direitos de acesso em vários bancos de dados e tabelas no data lake estejam de acordo com as políticas de segurança.