Você já conhece os Data Lakes?


01 Aug
01Aug

Hoje vamos falar em DATA LAKE ou Lago de Dados em uma tradução literal, afinal de contas o que é esse tal de DATA LAKE? 

O data lake é um repositório que centraliza e armazena todos os tipos de dados gerados pela e para a empresa. Eles são depositados ali ainda em estado bruto, sem o processamento e análise e até mesmo sem uma governança. Isto com o objetivo de manter na empresa dados que podem ser úteis, mesmo que eles, na realidade, não sejam necessários em nenhum momento posterior. O data lake seria — em alguns casos já é — o local de armazenamento dessas informações. Cuidado, aqui não se pode confundir DL com o DW (Data Warehouse)


E qual seria a difença entre o DL e o DW?

O data warehouse, que já existe e funciona há cerca de três décadas, prevê o armazenamento de dados já limpos e organizados, tornando-os imediatamente disponíveis para análise e uso.

Apesar de serem muito úteis às organizações, especialistas afirmam que hoje o mercado demanda respostas a perguntas que não haviam sido planejadas. Isso exige que o sistema lide com dados em volumes cada vez maiores e natureza diversa — uma flexibilidade que o data warehouse não consegue proporcionar. O DW exige que você tenha tempo para preparar os dados, é possível inclusive afirmar que aqui ocorre a relação de Pareto, você gasta 80% do seu tempo preparando dados e apenas 20% analisando-os e na verdade deveria ser o contrário! 

O data lake por sua vez, elimina este problema. Não existe nenhum modelo ou esquema definido previamente. Portanto, não se gasta tempo preparando e estruturando dados. Ele simplesmente armazena essas informações em seu estado bruto.


Quais as vantagens de um DATA LAKE?

Volume e velocidade

Como reúnem dados de diversas fontes que não passam por uma limpeza prévia, é possível acumular um volume imenso de informações, em um ritmo extremamente rápido.

Flexibilidade

Além de vir de múltiplas fontes, a informação disponível no data lake não foi “enformada” previamente para responder um conjunto preestabelecido de questões. Portanto, à medida que surgem novos tópicos e necessidades, esses dados podem ser “pescados” para respondê-los e atendê-los, proporcionando uma visão estratégica.

Facilidade no acesso

Os data lakes são muito mais acessíveis. Eles permitem o compartilhamento de informações entre muitos usuários, sem a necessidade de intervenção da equipe de TI. Seus dados podem ser agrupados por temas, objetivos, ou praticamente qualquer critério que seja útil naquele momento.

Redução no investimento

Em relação a esse modelo, o data lake pode ser mais vantajoso. Além de não exigir todo esse tratamento da informação, ele mantém todo esse volume de dados disponível para uma análise mais ampla, não limitada a qualquer tipo de esquema.

Novas possibilidades

Ao reunir uma quantidade tão grande de dados, o data lake abre a possibilidade para cruzar conteúdos que não haviam sido analisados. Assim, ele cria a oportunidade de fazer descobertas e obter insights completamente inéditos.


E quais seriam as plataformas de Data Lake do mercado?

As soluções mais conhecidas de Data Lake do mercado são: IBM-Cloudera, Data Lake Analytics da Microsoft Azure, Data LaKe Amazon AWS.

As soluções disponíveis estão sempre na mesma faixa de preço, porém a solução da AMAZON tem atraído uma quantidade muito maior de usuários!

Ao pensar em qual a plataforma ideal para você deve ser levada em conta os aspectos e ferramentas que sua empresa irá usar, além de verificar se o seu time está preparado e como irá aplicar a analise destas informações. 

Cuidado nos projetos de implementações de Data Lakes. Data Lakes não podem ser transformados em Data Swamp. Mas isso é conteúdo para um próximo bate papo!

Comentários
* O e-mail não será publicado no site.