13/08/2021 07:00:00

Data lake, a fonte mágica de dados para sua estratégia de Big Data

Os dados estão em todo lugar, mas como armazená-los? Conheça o conceito de data lake e por que um profissional de TI precisa saber implementá-lo

O que é indispensável para um data driven business? Como o nome já diz, dados.

Eles estão em todo lugar e, quando bem utilizados, oferecem insights incríveis e até se materializam em lucro para as empresas. Mas exatamente por estarem espalhados por aí é que o seu uso é desafiador.

Pesquisa de 2021 da Cappra Institute mostrou que as empresas brasileiras têm 10 petabytes armazenados, em média, volume que deve crescer até 175% nos próximos 5 anos.

O que fazer com tanta informação ainda é uma incógnita para as organizações, que sentem que ainda faltam dados para tomar decisões e os que já estão disponíveis não são de qualidade. Outro problema frequente é a demora em receber relatórios que dependem de dados. Para se chegar a estas conclusões, foram entrevistados mais de 500 profissionais brasileiros, entre gestores e analistas.

Segundo o Cappra Institute, a maioria das empresas no Brasil faz uso pontual dos dados, sem uma constância analítica, porém gostaria de adquirir maturidade neste quesito nos próximos anos. Isso já se reflete no mercado de trabalho de tecnologia, que tenta suprir uma demanda por arquitetos de software, cientistas de dados e analistas de cibersegurança.

Para se tornar requisitado neste mercado e ajudar as organizações a lidarem com o Big Data, o profissional de tecnologia deve saber implementar soluções bastante conhecidas na área de TI. Uma delas é o data lake, que você conhecerá em detalhes nos próximos parágrafos.

🟣 Quer aprofundar ainda mais seus conhecimentos sobre ciência de dados? Aprenda com quem é referência internacional no assunto no curso Arquitetura de Software, Ciência de Dados e Cybersecurity da Pós PUCPR Digital. 

Quero fazer a pós em Arquitetura de Software, Ciência de Dados e Cybersecurity

O que é data lake

Um data lake é um banco de dados não relacional. Ele é um repositório que não exige a estruturação prévia dos dados, que podem ser armazenados no seu formato de origem. Aqui é importante relembrarmos alguns conceitos sobre as informações que estão disponíveis na web.

O data lake pode armazenar todos os três tipos de dados, que são classificados como:

  • Dados estruturados: Formatados e organizados em esquemas relacionais, seguindo parâmetros específicos. Os principais exemplos desta categoria são os arquivos do Excel, CSV, SQL e JSON.
  • Dados semiestruturados: as informações já foram organizadas de alguma forma, porém ainda não estão totalmente estruturadas. Arquivos HTML, XML e OWL são três exemplos da categoria.
  • Dados não-estruturados: as informações não estão organizadas nem têm uma hierarquia interna explícita. A categoria engloba a maior parte dos dados disponíveis na internet, como arquivos de texto, imagens, vídeos e dados de redes sociais.

Os dados que compõem um data lake também passam pelo processo ETL, um dos mais utilizados na integração de informações digitais. ETL é um acrônimo e cada letra representa uma etapa do processo:

  • Extract (extrair): coleta de dados a partir de diferentes sistemas, para depois serem conduzidos ao staging area. Neste espaço temporário eles serão convertidos em um mesmo formato.
  • Transform (transformar): os dados são organizados de acordo com as necessidades da empresa. É nesta etapa que eles são estruturados para serem armazenados em um espaço definitivo.
  • Load (carregar): os dados já estruturados são enviados a um repositório específicos, onde ficam disponíveis para consulta interna.

Os dados não passam pela etapa de transformação (T) para integrar um data lake, pulando do passo E para o L. Isso permite que o repositório guarde um volume gigantesco de dados, de qualquer tipo e em qualquer escala.

Por isso costuma-se definir também o data lake como um repositório que armazena um grande volume de dados brutos em formato nativo. Esta definição se inspira na ideia de lago, metáfora usada pela primeira vez em 2010 por James Dixon, CTO da Pentaho. Ele cunhou a expressão "data lake" ao se referir aos desafios da coleta, uso e armazenamento de dados.

De forma geral, os data lakes são manejados por cientistas de dados, que projetam a arquitetura da estrutura e a integram ao fluxo feral de dados. O profissional também é responsável pela curadoria das informações armazenadas.

Os benefícios de um data lake

  • Armazenamento de dados na íntegra;
  • Gestão econômica e dinâmica dos dados;
  • Processamento sob demanda, de forma escalável. Os dados são transformados apenas quando necessário, processo chamado de "esquema de leitura";
  • Maior flexibilidade no uso dos dados, por não terem sido ainda estruturados em esquemas pré-definidos;
  • Facilidade de usar dados na automação de processos e na criação de algoritmos de deep learning.

Data lake vs data warehouse: qual a diferença?

A principal diferença entre um data lake e um data warehouse é o tipo de dados contido em cada um deles. Enquanto o data lake permite o armazenamento das 3 categorias de dados, o data warehouse é destinado aos dados estruturados.

Como o nome já diz, os data warehouses servem como "armazéns de dados". As informações são classificadas em blocos semânticos, chamados de relações, com o objetivo de fornecer relatórios. Ao contrário do data lake, eles são um banco de dados relacional, usado geralmente por analistas de Big Data e Business Intelligence.

Outra diferença importante entre o data lake e o data warehouse é o tamanho disponível para armazenamento. O primeiro demanda um espaço maior, muitas vezes na casa dos terabytes e petabytes, já que tem o propósito de guardar todo tipo de dado. Já o segundo pode contar com um tamanho menor, por ter o objetivo de armazenar somente dados relevantes para análise.

Tanto o data lake quanto o data warehouse podem usar modelos de armazenamento on-premise, cloud ou híbrido. O uso da nuvem tem se tornado cada vez mais popular, devido à flexibilidade e à facilidade de acesso às informações.

Uma empresa não é obrigada a escolher entre um data lake e um data warehouse. Ela pode manter os dois tipos de banco de dados, dependendo de seus objetivos de negócio e de sua estratégia de Big Data.

Como fazer uma arquitetura data lake

O projeto de arquitetura do data lake é considerado simples, por envolver a coleta e armazenamento de dados nativos. No entanto, seu planejamento deve envolver diferentes setores da empresa, e não apenas a área de TI, pois as informações serão acessadas por diferentes setores.

A ferramenta de data lake mais comum é o Hadoop, estrutura de software open-source voltada ao armazenamento de dados, porém existem inúmeras no mercado. A escolha vai depender dos objetivos, do time de tecnologia e de quanto a empresa pensa em investir na arquitetura data lake.

As principais etapas que devem estar previstas no projeto de arquitetura data lake são:

1. Landing zone

A primeira etapa é a criação de um ambiente virtual de captura de dados, que deve ser destacado dos principais sistemas de TI da empresa. Nesse local as informações são armazenadas em estado bruto.

2. Data science environment

O ambiente virtual é acessado pelos cientistas de dados, que realizam experimentos e testes. É nessa etapa que a equipe de TI certifica-se de que o data lake atende as demandas da empresa.

3. Offload for data warehouses

Os dados disponíveis no data lake são integrados aos data warehouses da empresa. Eles não precisam ser estruturados nesta etapa do processo.

4. Critical component of data operations

O data lake pode substituir repositórios de dados de pequena escala, que integram o data warehouse da empresa. Isso permite a criação de sistemas de varredura de dados para extrair informações como se fosse um motor de busca interno.

É preciso ter em mente que os data lakes exigem governança e manutenção contínuas, para que o grande volume de informações armazenadas não se torne um data swamp. Este "pântano de dados" refere-se aos lagos que se tornaram inacessíveis, pesados, dispendiosos e inúteis.

Para que isso não aconteça, cientistas de dados e demais profissionais de TI que lidam com data lakes precisam se manter atualizados e aprimorarem suas skills. O melhor caminho são palestras, workshops e cursos online com profissionais referência no mercado.

A Pós PUCPR Digital oferece a especialização em Arquitetura de Software, Ciência de Dados e Cybersecurity para profissionais de tecnologia que querem aprender a fazer um projeto de arquitetura data lake.

O curso é 100% online e ministrado por professores que atuam em Big Techs como Google, Amazon e Microsoft. Entre eles estão Marcelo Leite, especialista em estratégia de Dados da Microsoft Brasil; Renato Barbosa, head de AI/ML Business da AWS; e Rodrigo Vale, engenheiro da Google.

sobre o autor

Olívia Baldissera

Jornalista, historiadora e analista de conteúdo da Pós PUCPR Digital.

Comentários

Os comentários são de responsabilidade exclusiva de seus autores e não representam a opinião deste site.

Próximo conteúdo

Data Science, Big Data e Data Analytics: qual é a diferença?

Os dados estão em todo lugar, mas como armazená-los? Conheça o conceito de data lake e por que um profissional de TI precisa saber implementá-lo

Tempo de leitura

5 min