Ao contrário dos sistemas de armazenamento de dados construídos especificamente, um data lake pode ser usado para despejar dados em sua forma original. Esses dados geralmente permanecem sem supervisão. Crédito:Shutterstock.com
As máquinas e a Internet fazem parte do tecido da nossa sociedade. Um número crescente de usuários, dispositivos e aplicativos trabalham juntos para produzir o que agora chamamos de "big data". E esses dados ajudam a impulsionar muitos dos serviços diários que acessamos, como bancos.
Uma comparação de instantâneos da Internet de 2018 e 2019 esclarece a taxa crescente em que as informações digitais são trocadas diariamente. O desafio de capturar e armazenar dados com segurança está se tornando mais complicado com o tempo.
É aqui que os data warehouses e os data lakes são relevantes. Ambos são espaços online usados por empresas para processamento e armazenamento interno de dados.
Infelizmente, desde o conceito de data lakes originado em 2010, não foi feito o suficiente para resolver os problemas de segurança cibernética.
Esses valiosos repositórios permanecem expostos a um número crescente de ataques cibernéticos e violações de dados.
Uma panacéia proposta para problemas de big data
A abordagem tradicional usada pelos provedores de serviço é armazenar dados em um "data warehouse" - um único repositório que pode ser usado para analisar dados, criar relatórios, e consolidar informações.
Contudo, os dados que vão para um warehouse precisam ser pré-processados. Com zetabytes de dados no ciberespaço, esta não é uma tarefa fácil. O pré-processamento requer uma grande quantidade de computação feita por supercomputadores de ponta, e custa tempo e dinheiro.
Lagos de dados foram propostos para resolver isso. Ao contrário dos armazéns, eles podem armazenar dados brutos de qualquer tipo. Data lakes são frequentemente considerados uma panacéia para problemas de big data, e foram adotados por muitas organizações que tentam impulsionar a inovação e novos serviços para os usuários.
James Dixon, o técnico de dados dos EUA que supostamente cunhou o termo, descreve data lakes assim:"Se você pensar em um datamart como um armazenamento de água engarrafada - limpa, embalada e estruturada para fácil consumo - o data lake é um grande corpo de água em um estado mais natural. O conteúdo do fluxo de data lake de uma fonte para encher o lago, e vários usuários do lago podem vir para examinar, mergulhar, ou tirar amostras. "
Tenha cuidado ao nadar em um data lake
Embora os data lakes criem oportunidades para analistas de dados, suas portas digitais permanecem desprotegidas, e resolver os problemas de segurança cibernética continua sendo uma reflexão tardia.
Nossa capacidade de analisar e extrair inteligência de lagos de dados está ameaçada no reino do espaço cibernético. Isso é evidente por meio do alto número de violações de dados recentes e ataques cibernéticos em todo o mundo.
Com os avanços tecnológicos, ficamos ainda mais sujeitos a ataques cibernéticos. Enfrentar atividades cibernéticas maliciosas deve ser uma prioridade no clima digital atual.
Embora a pesquisa sobre isso tenha florescido nos últimos anos, uma forte conexão entre a segurança cibernética efetiva e os lagos de dados ainda está para ser feita.
Não é incomum estar comprometido
Devido aos avanços no software malicioso, especificamente na ofuscação de malware, é fácil para os hackers ocultar um vírus perigoso em um arquivo aparentemente inofensivo.
Ataques de injeção de dados falsos aumentaram na última década.
O ataque acontece quando um cibercriminoso explora ferramentas disponíveis gratuitamente para comprometer um sistema conectado à internet, para injetá-lo com dados falsos.
Os dados externos injetados obtêm acesso não autorizado ao data lake e manipula os dados armazenados para enganar os usuários. Existem muitos motivadores potenciais por trás de tal ataque.
Componentes de lagos de dados
A arquitetura do data lake pode ser dividida em três componentes:ingestão de dados, armazenamento de dados e análise de dados.
A ingestão de dados refere-se aos dados que chegam ao lago de uma ampla gama de fontes. Isso geralmente acontece sem políticas de segurança legítimas em vigor. Quando os dados recebidos não são verificados quanto a ameaças à segurança, uma oportunidade de ouro é apresentada para os criminosos cibernéticos injetar dados falsos.
O segundo componente é o armazenamento de dados, que é onde todos os dados brutos são despejados. Novamente, isso acontece sem quaisquer considerações consideráveis de segurança cibernética.
O componente mais importante dos data lakes é a análise de dados, que combina a experiência de analistas, cientistas e oficiais de dados. O objetivo da análise de dados é projetar e desenvolver algoritmos de modelagem que podem usar dados brutos para produzir percepções significativas.
Por exemplo, análise de dados é como a Netflix aprende sobre os hábitos de visualização de seus assinantes.
Desafios futuros para especialistas em dados
A menor alteração ou manipulação em data lakes pode enganar enormemente os analistas de dados e ter um impacto generalizado.
Por exemplo, lagos de dados comprometidos têm enormes implicações para a saúde, porque qualquer desvio nos dados pode levar a um diagnóstico errado, ou mesmo vítimas.
Também, agências governamentais que usam data lakes comprometidos podem enfrentar o caos nas relações internacionais e em situações comerciais. A defesa, finança, os setores de governança e educação também são vulneráveis a ataques de data lake.
Considerando o volume de dados armazenados em data lakes, as consequências dos ataques cibernéticos estão longe de ser triviais.
E como a geração de grandes quantidades de dados no mundo de hoje é inevitável, é crucial que os arquitetos de data lake se esforcem mais para garantir que esses depósitos de dados em risco sejam tratados corretamente.
Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.