Data Warehouses e Data Lakes
Esses dois termos, apesar de pouco compreendidos, aparecem com frequência quando o assunto é soluções para armazenamento de grandes quantidades de dados.
Para entendermos seu significado é necessário dar um passo atrás, de modo a compreender os seguintes pontos:
- O que é big data?
- O que são dados estruturados?
- Por quê as empresas precisam cada vez mais de repositórios únicos de dados?
Big data
A definição de big data mais difundida é a que foi dada pela companhia Gartner, em 2001. Numa livre tradução, podemos colocar da seguinte forma:
Ativos de informação com grande volume, velocidade e variedade, que demandam soluções inovadoras de processamento para que possam ser interpretadas e utilizadas nos processo de tomada de decisão.
Ok, todos sabemos que produzimos mais dados do que nunca. E, apenas para dar uma dimensão disso, uma pesquisa do fórum econômico mundial, mostra que em 2025 serão produzidos 463 exabytes de dados por dia!
Para lidar com big data são necessárias abordagens diferenciadas. Somente assim o armazenamento e o processamento se tornam factíveis.
Dados estruturados x não estruturados
Dados estruturados são aqueles de formato previamente conhecido . Obedecem um padrão de estrutura e podem portanto ser armazenados e organizados em uma coleção de dados rígida, como uma tabela de banco de dados por exemplo.
Já os dados não estruturados são aqueles que não necessariamente possuem uma estrutura bem definida. Esses dados podem ser de praticamente qualquer tipo, como fotos, áudios, arquivos json e textos.
A necessidade por um repositório único de dados
É natural que empresas de médio e grande porte possuam uma estrutura de tecnologia descentralizada. Quando isso acontece, começam a aparecer bancos de dados gerenciados por diferentes equipes, para atender propósitos específicos, como armazenar dados de um aplicativo, armazenar dados de vendas, dados sobre mercado e muito mais.
Isso gera um problema conhecido como “silos de dados”, que se traduz em um cenário no qual os dados da empresa ficam “espalhados” em diferentes bases, ou bancos de dados, dificultando a análise e o cruzamento dos mesmos.
Para que os analistas consigam realizar estudos e gerar relatórios com facilidade torna-se necessário que os dados sejam disponibilizados em um repositório único.
Ligando os pontos … O que são Data Warehouses e Data Lakes
Bom, talvez você tenha vindo até aqui apenas para descobrir o que são os dois termos que constam no título da publicação. Mas agora que discutimos os 3 conceitos anteriores, podemos definir com mais facilidade o que são e para que servem os data lakes e os data warehouses.
Ambos são soluções para eliminar silos de informação, consolidando vários tipos de dados em uma plataforma única, integrada e infinitamente escalável.
Data warehouses são idealizados para armazenar dados estruturados para propósitos específicos. Ou seja, dados sobre os quais já conhecemos a estrutura e sabemos como serão convertidos em informação.
Data Lakes são construídos para armazenar dados que não necessariamente possuem uma estrutura bem definida.
Para atender a este fim, é necessário que estas soluções sejam robustas, totalmente gerenciáveis e extensíveis para armazenar as informações. Além é claro, de possuírem um baixo custo, para minimizar despesas de capital em hardware e software.