Cursos
A evolução da sua carreira começa agora: cursos com início imediato
Ver todos os cursos

Todos os cursos Arquitetura e Urbanismo Comunicação Direito Energia Escola da Terra Negócios Saúde Tecnologia
- Transição Energética: Novos Negócios e o Futuro da Energia
Lifelong Learning
A evolução da sua carreira começa agora: cursos com início imediato
Ver todos os cursos

Todos os cursos Negócios Saúde Tecnologia Direito SUPERCLASSES
Blog
FAQ
Área do Aluno

Cursos
Voltar

Arquitetura e Urbanismo

Urbanismo e o Futuro das Cidades: Planejamento Inteligente e Impactos Socioambientais

Gestão de Riscos Socioambientais e Desenvolvimento Sustentável

Neuroarquitetura, Bem-estar e Experiência do Usuário

Ver todos os cursos

Comunicação

Big Data e Marketing Intelligence

Comunicação Digital, Branding e Storytelling

Marketing: Estratégias, Negócios Digitais e Experiência do Cliente

Economia comportamental, dados e novas tecnologias

Imagem e Marca Pessoal: Estratégia para Geração de Valor

Neurocomunicação: Estratégias para Narrativas de Impacto

Dinâmica Global: Geopolítica, Gestão de Riscos e Novas Oportunidades

Neurobranding e Neuromarketing: Estratégias de Engajamento Sensorial

Gestão de Crises: Liderança, Resolução e Comunicação Estratégica

Ver todos os cursos

Direito

Direito 4.0: Direito Digital, Proteção de Dados e Cibersegurança

Legal Operations: Dados, Inteligência Artificial e Alta Performance Jurídica

Gestão de Risco, Compliance e Auditoria

Ver todos os cursos

Energia

Transição Energética: Novos Negócios e o Futuro da Energia

Ver todos os cursos

Escola da Terra

Urbanismo e o Futuro das Cidades: Planejamento Inteligente e Impactos Socioambientais

Transição Energética: Novos Negócios e o Futuro da Energia

Gestão de Riscos Socioambientais e Desenvolvimento Sustentável

Dinâmica Global: Geopolítica, Gestão de Riscos e Novas Oportunidades

Ver todos os cursos

Negócios

Pessoas, Gestão e Comportamento

Planejamento Financeiro, Investimentos Digitais e Tendências de Mercado

Gestão de Projetos, Jornada do Cliente e Metodologias Ágeis

Liderança Ágil: Pessoas, Projetos e Inovação

Análise de dados para tomada de decisões

Liderança e transformação digital na era da IA

Future Thinking: Sociedade, Tecnologia e Mercado

Metodologias Ágeis, Modelo Startup e Gestão da Inovação

Inclusão nas Organizações: Diversidade e Múltiplas Gerações

Soluções em ESG: Oportunidades, Desenvolvimento e Retorno

Dinâmica Global: Geopolítica, Gestão de Riscos e Novas Oportunidades

Neurobranding e Neuromarketing: Estratégias de Engajamento Sensorial

Gestão de Crises: Liderança, Resolução e Comunicação Estratégica

IA e Negócios: Estratégia, Inovação e Resultados

Ver todos os cursos

Saúde

Saúde 4.0: Gestão, Tecnologia e Inovação

Saúde Mental e Desenvolvimento Humano

Neurociência, Psicologia positiva e Mindfulness

Espiritualidade, Carreira e Sentido da Vida

Psicologia Positiva, Gestão de Pessoas e Saúde no Trabalho

Tecnologia e Dados em Saúde

Agilidade Emocional: Performance e Resiliência

Psicologia na era Digital: Sofrimento Psíquico e Vulnerabilidade

Saúde do Idoso: Cuidando da Mente e do Corpo

Neurociência Aplicada: Produtividade e Performance Humana

TEA, TDAH e Inclusão: Saúde, Família e Sociedade

Ansiedade, Vulnerabilidades e Burnout: Psicologia e Autocuidado

Estratégias da Terapia Cognitivo Comportamental para Transformar Vidas

Inteligência Artificial na Saúde: Eficiência, Soluções e Ética

Neurociência e Comportamento Alimentar

Ver todos os cursos

Tecnologia

Saúde 4.0: Gestão, Tecnologia e Inovação

Arquitetura de Software, Ciência de Dados e Cybersecurity

Governança de TI, Segurança Digital e Gestão de Dados

Segurança da Informação

Tecnologia e Dados em Saúde

Economia comportamental, dados e novas tecnologias

Arquitetura de Soluções: Aplicações Inteligentes e Estratégicas

Inteligência Artificial na Saúde: Eficiência, Soluções e Ética

Ver todos os cursos
Lifelong Learning
Voltar

Negócios

Análise técnica: Descobrindo Tendências nos Gráficos Financeiros

Ciência de Dados Aplicada Ao Gerenciamento de Projetos

Gestão Por Competências

Sistema Financeiro: do Banco Central ao Open Banking

Jornada do Cliente

Project Management Office

Mercado Acionário: É Possível Enriquecer com Ações no Brasil?

LGPD: do Privacy By Design Ao Sistema Legado

Inteligência Artificial

Comunicação Estratégica Para Gestão de Pessoas

Gestão Contemporânea de Projetos

Investimentos ESG: A Nova Tendência do Mercado

Plataformas e Ferramentas de Gamificação

Planejamento e Controle de Projetos

Valuation: Como Atribuir O Valor De Uma Empresa Usando o Fluxo De Caixa Descontado?

Desconectado de Si Mesmo: A Automatização dos Processos e O Esgotamento Emocional No Trabalho

Criptoativos: Investimento e Especulação

Processos de Gestão de Pessoas

Governança Ágil de Projetos, Programas e Portfólios

Robô-trade, Inteligência Artificial e Investimentos

Arquitetura de Dados

Gestão e Comportamento Humano

Análise de Viabilidade Em Ambientes Preditivos e Adaptativos

O Mercado Brasileiro de Renda Fixa

CRM e Digital Analytics

Gestão da Diversidade e das Diferenças No Trabalho

Mentoring e Coaching Executivo

Investindo em Startups

Big Data e Estratégia de Dados: O Enriquecimento de Bases Como Estratégia Competitiva

Vale a Pena Investir em Fundos?

Inbound Marketing e Inside Sales

Gestão de Equipes Remotas

Gestão Financeira Digital: O Que Há de Novo?

Novas Tecnologias Em Dispositivos Móveis

Gestão Estratégica de Tráfego Em Marketing

Machine Learning

User Experience: Engajando Usuários e Melhorando Performances

Design de Interfaces Críticas

Canais de Aquisição: Growth Hacking

Ver todos os cursos

Saúde

Soft Skills Para Tomada de Decisão e Negociação

Impactos das Mudanças No Séc. XXI Para O Idoso

Prevenção e Promoção À Saúde e Novas Tecnologias

As Determinações Histórico-Culturais Para A Gestão do Sofrimento Psíquico

Tecnologias Emergentes Na Saúde

Interioridade e Mindfulness

Aplicativos e Algoritmos de Inteligência Artificial Em Prol de Estratégias Em Serviço de Saúde Mental

Legislação e Regulação em Saúde / LGPD / Compliance

Detox Digital: Likes e Curtidas Para Si Mesmo

Vulnerabilidades Psicológicas Na Infância e Juventude do Séc. XXI

Healthcare Low Touch Economy: Teleconsulta, Telemonitoramento e Consultoria Virtual

Organizações Exponenciais

A Humanização No Atendimento: O Uso das Tecnologias Leves Em Saúde

Humanização e Tecnologia: Potenciais de Convergência

Guia e Multiplicação de Práticas de Mindfulness e Autocompaixão

A Questão de Gênero No Século XXI: A Subversão da Liberdade Ou A Manutenção da Ordem

Marketing Na Saúde 4.0

Transformação Digital Na Saúde e Instituições Digitais

A Emergência do Cuidado Mediante Crises Em Saúde Coletiva

Gestão da Experiência do Cliente Na Saúde Digital

No Lugar dos Emoticons, A Conexão Humana, O Afeto e As Interações Sociais

Felicidade e Suas Falácias Contemporâneas: Entre A Realização e A Ilusão

A Captura da Subjetividade Em Objeto Pelo Mundo Digital

O Eu Ameaçado: Cuidados de Si Em Tempos de Hiperconectividade

O Sentido da Vida: A Crise Sobre Sua Manutenção

As Promessas do Mundo Ao Alcance de Sua Mão: A Ilusão da Felicidade e A Ânsia Por Estar Bem

Autoconsciência: Valores, Virtudes e Forças de Caráter

Lean Healthcare: Além da Eficiência Clínica

Treinamentos, Protocolos e Práticas de Mindfulness: Saúde, Educação e Organizações

Humano Esvaziado Humano: Virtudes Urgentes do Século XXI

O Que Esperar do Futuro da Saúde?

Os Dados Construindo O Valor da Marca - Brand Equity

Psicologia Positiva: Inteligência Emocional e Autoconsciência

Como A Educação Na Área de Saúde Pode Gerar Valor?

Vulnerabilidade e Comportamento Online

Ver todos os cursos

Tecnologia

Padrões Arquiteturais: Como Tornar Seu Projeto Mais Flexível, Confiável e Resiliente a Mudanças

Gerenciamento Ágil de Processos e Serviços de Ti Com Itil

Arquitetura Big Data: Potencializando as Análises e Tomada de Decisões Ágeis

Gestão, Governança e Arquitetura de Dados

Sistemas de Gestão da Segurança da Informação baseados na família ISO 27000

Segurança da Informação: Gestão de Vulnerabilidades e de Riscos

Escalando Negócios Com Arquitetura Multi-Cloud e Cross-Cloud

Serverless Computing: Como Coordenar Componentes e Serviços Distribuídos?

Planejamento Estratégico de TI

Migração Para Ambiente Em Cloud, Vale A Pena? Evitando A Estratégia de Lift And Shift

O Inútil Necessário: A Arte Para (Ainda) Sermos Humanos

Liderança Ágil

Gestão de Mudanças

Mitigando Atritos Entre Times Utilizando DevSecOps

Compliance e Auditoria de TI

Projetando Arquitetura com Segurança: Um Framework para proteger o Ciclo de Vida do Software

Governança de Ti Na Organização 4.0 Com Cobit

Ciência de Dados: Agile Data Science Escalável

Arquitetura Big Data: Como Potencializar as Análises e Tomada de Decisões

Arquitetura de Microsserviços e Microcontainer: O Negócio Como Serviço

Business Intelligence and Analytics

Cultura Ágil

Mapeamento e Melhorias de Processos – BPMN

Arquitetando A Nuvem: Conhecendo Seus Tipos e Serviços

Arquitetura Datalake: Extraindo Valor dos Dados

Futurologia: Tendências Para O Século 22

Jornada Devops: Como Implantar Projetos com Alta Qualidade

Design Thinking Para Mudança da Cultura Organizacional

Técnicas Lúdicas Para Gestão de Pessoas

Psicologia da Motivação e do Comportamento Humano

Games, Gamification e Game Thinking

Jogabilidade e Motivação do Jogador

Técnicas de Prototipação Rápida Para Criação do MVP

Serious Games e Edutainment

Marketing Digital e Community Management

Estratégias de Engajamento: Estudos de Casos de Gamificação

Design Instrucional e Aprendizagem Efetiva

Ver todos os cursos

Direito

Privacy By Design e By Default: A Ciência de Dados Guiada Pela Privacidade

Fundamentos de Ciência de Dados e Big Data

Direito Penal Informático

Blockchain e Os Smart Contracts

Gestão de Segurança da Informação: Prevenção, Contenção e Continuidade

Legal Operations: Alta Performance, Ferramentas e Automação Jurídica.

Extração de Dados: Como Obter O Melhor dos Dados

Economia de Compartilhamento e Ecossistema de Startup

Responsabilidade Civil e A Tomada de Decisão Automatizada

Derivativos: Como e Quando Usar

Análise Preditiva de Decisões Judiciais

Os Desafios do Data Protection Officer (DPO)

Fundamentos da Lei Geral de Proteção de Dados (LGPD)

Governança Em Inteligência Artificial

Constitucionalismo Digital

O Que É O Virtual? Entendendo O Ciberespaço

Plataformas e Ferramentas Colaborativas Para Gerenciamento de Projetos

Normas Técnicas Para Segurança e Privacidade da Informação (ISO 27001, 27002 e 27701)

ANPD: Entre Regulações e Penalidades

Jurimetria: Ciência de Dados Aplicada Ao Direito

Ver todos os cursos

SUPERCLASSES

Ética: Inteligência Moral na Era Digital

Admirável Futuro Novo

Pessoas e Gestão Ágil de Negócios

Por Novas Linguagens Para Expressão de Saúde: A Arte e A Criatividade

Felicidade e Bem-Estar

O Estilo Startup

Ver todos os cursos
Blog
FAQ
Área do Aluno

Data lake, a fonte mágica de dados para sua estratégia de Big Data

Data lake, a fonte mágica de dados para sua estratégia de Big Data

Lorem ipsum dolor sit amet, consectetur adipiscing elit

13 de agosto de 2021

Acompanhe

O que é indispensável para um data driven business? Como o nome já diz, dados.

Eles estão em todo lugar e, quando bem utilizados, oferecem insights incríveis e até se materializam em lucro para as empresas. Mas exatamente por estarem espalhados por aí é que o seu uso é desafiador.

Pesquisa de 2021 da Cappra Institute mostrou que as empresas brasileiras têm 10 petabytes armazenados, em média, volume que deve crescer até 175% nos próximos 5 anos.

O que fazer com tanta informação ainda é uma incógnita para as organizações, que sentem que ainda faltam dados para tomar decisões e os que já estão disponíveis não são de qualidade. Outro problema frequente é a demora em receber relatórios que dependem de dados. Para se chegar a estas conclusões, foram entrevistados mais de 500 profissionais brasileiros, entre gestores e analistas.

Segundo o Cappra Institute, a maioria das empresas no Brasil faz uso pontual dos dados, sem uma constância analítica, porém gostaria de adquirir maturidade neste quesito nos próximos anos. Isso já se reflete no mercado de trabalho de tecnologia, que tenta suprir uma demanda por arquitetos de software , cientistas de dados e analistas de cibersegurança.

Para se tornar requisitado neste mercado e ajudar as organizações a lidarem com o Big Data, o profissional de tecnologia deve saber implementar soluções bastante conhecidas na área de TI. Uma delas é o data lake, que você conhecerá em detalhes nos próximos parágrafos.

O que é data lake

Um data lake é um banco de dados não relacional. Ele é um repositório que não exige a estruturação prévia dos dados, que podem ser armazenados no seu formato de origem. Aqui é importante relembrarmos alguns conceitos sobre as informações que estão disponíveis na web.

O data lake pode armazenar todos os três tipos de dados, que são classificados como:

Os dados que compõem um data lake também passam pelo processo ETL, um dos mais utilizados na integração de informações digitais. ETL é um acrônimo e cada letra representa uma etapa do processo:

Os dados não passam pela etapa de transformação (T) para integrar um data lake, pulando do passo E para o L. Isso permite que o repositório guarde um volume gigantesco de dados, de qualquer tipo e em qualquer escala.

Por isso costuma-se definir também o data lake como um repositório que armazena um grande volume de dados brutos em formato nativo. Esta definição se inspira na ideia de lago, metáfora usada pela primeira vez em 2010 por James Dixon, CTO da Pentaho. Ele cunhou a expressão "data lake" ao se referir aos desafios da coleta, uso e armazenamento de dados.

De forma geral, os data lakes são manejados por cientistas de dados , que projetam a arquitetura da estrutura e a integram ao fluxo feral de dados. O profissional também é responsável pela curadoria das informações armazenadas.

Os benefícios de um data lake

Data lake vs data warehouse: qual a diferença?

A principal diferença entre um data lake e um data warehouse é o tipo de dados contido em cada um deles. Enquanto o data lake permite o armazenamento das 3 categorias de dados, o data warehouse é destinado aos dados estruturados.

Como o nome já diz, os data warehouses servem como "armazéns de dados". As informações são classificadas em blocos semânticos, chamados de relações, com o objetivo de fornecer relatórios. Ao contrário do data lake, eles são um banco de dados relacional, usado geralmente por analistas de Big Data e Business Intelligence.

Outra diferença importante entre o data lake e o data warehouse é o tamanho disponível para armazenamento. O primeiro demanda um espaço maior, muitas vezes na casa dos terabytes e petabytes, já que tem o propósito de guardar todo tipo de dado. Já o segundo pode contar com um tamanho menor, por ter o objetivo de armazenar somente dados relevantes para análise.

Tanto o data lake quanto o data warehouse podem usar modelos de armazenamento on-premise, cloud ou híbrido. O uso da nuvem tem se tornado cada vez mais popular , devido à flexibilidade e à facilidade de acesso às informações.

Uma empresa não é obrigada a escolher entre um data lake e um data warehouse. Ela pode manter os dois tipos de banco de dados, dependendo de seus objetivos de negócio e de sua estratégia de Big Data.

Como fazer uma arquitetura data lake

O projeto de arquitetura do data lake é considerado simples, por envolver a coleta e armazenamento de dados nativos. No entanto, seu planejamento deve envolver diferentes setores da empresa, e não apenas a área de TI, pois as informações serão acessadas por diferentes setores.

A ferramenta de data lake mais comum é o Hadoop, estrutura de software open-source voltada ao armazenamento de dados, porém existem inúmeras no mercado. A escolha vai depender dos objetivos, do time de tecnologia e de quanto a empresa pensa em investir na arquitetura data lake.

As principais etapas que devem estar previstas no projeto de arquitetura data lake são:

1. Landing zone

A primeira etapa é a criação de um ambiente virtual de captura de dados, que deve ser destacado dos principais sistemas de TI da empresa. Nesse local as informações são armazenadas em estado bruto.

2. Data science environment

O ambiente virtual é acessado pelos cientistas de dados, que realizam experimentos e testes. É nessa etapa que a equipe de TI certifica-se de que o data lake atende as demandas da empresa.

3. Offload for data warehouses

Os dados disponíveis no data lake são integrados aos data warehouses da empresa. Eles não precisam ser estruturados nesta etapa do processo.

4. Critical component of data operations

O data lake pode substituir repositórios de dados de pequena escala, que integram o data warehouse da empresa. Isso permite a criação de sistemas de varredura de dados para extrair informações como se fosse um motor de busca interno.

É preciso ter em mente que os data lakes exigem governança e manutenção contínuas, para que o grande volume de informações armazenadas não se torne um data swamp. Este "pântano de dados" refere-se aos lagos que se tornaram inacessíveis, pesados, dispendiosos e inúteis.

Para que isso não aconteça, cientistas de dados e demais profissionais de TI que lidam com data lakes precisam se manter atualizados e aprimorarem suas skills. O melhor caminho são palestras, workshops e cursos online com profissionais referência no mercado.

<<< Artigo mais antigo

Artigo mais recente >>>

Por Redação

Gostou deste conteúdo? Compartilhe com seus amigos!

×

A purple and pink poster that says curadoria de conteudo exclusivos sobre saúde mental

Assine a News da Pós para ficar por dentro das novidades

Receba conteúdos sobre:

tendências de mercado
formas de escalar sua carreira
cursos para se manter competitivo.

Primeiro nome *

Sobrenome *

Celular *

E-mail *

Você já possui graduação completa? *

Sim
Não

Ano de conclusão da graduação *

Estou ciente e concordo que meus dados serão coletados e utilizados para promover serviços educacionais.

Formulário enviado com sucesso!

Conteúdo Relacionado

Um anúncio de um livro intitulado entrevista motivacional

Copyright © 2024 PUCPR Digital. Direitos reservados.

Cursos por área

Arquitetura e Urbanismo
Comunicação
Direito
Energia
Escola da Terra
Negócios
Saúde
Tecnologia

Mais informações

Matricule-se: +55 41 99257 2274
Institucional: pucpr.br
Materiais Gratuitos
Privacidade e Proteção de Dados
FAQ
Ouvidoria
Canal Telefônico para Ouvidoria: 0800 727 0580