Big Data e Hadoop: Saiba mais sobre esses conceitos

Big data é o termo utilizado para descrever uma grande massa de dados, sejam eles dados estruturados ou não-estruturados. Esse volume de dados que constantemente é gerado todos os dias, de inúmeras formas, quando processado pode fornecer insights importantes sobre algum determinado cenário.

Na prática, analisar este volume massivo de dados pode permitir que as organizações tomem decisões melhores, uma vez que é possível visualizar indicadores que não são tão óbvios quando analisando amostras menores.

Hadoop

O Hadoop é um framework de código fonte aberto, criado para armazenar e processar dados e executar aplicações para consolidação desses dados em clusters, utilizando plataformas comuns de hardware. A principal premissa é fornecer a possibilidade de armazenar grandes volumes de dados (big data) de qualquer tipo, ter grande poder de processamento e a possibilidade de ter vários trabalhos e tarefas rodando simultaneamente.

A história do hadoop

Com o crescimento exponencial da web no final dos anos 1990, foram criados índices de sites e buscadores, com o objetivo de tornar o conteúdo que estava sendo gerado “encontrável”. Em princípio, o conteúdo era cadastrado por humanos nesses índices, uma espécie de páginas amarelas pesquisável. Com o crescimento da internet esse cadastro manual se tornou inviável, até que a operação começou a ser automatizada.

Por volta de 2002, Doug Cutting e Mike Cafarella criaram um projeto chamado Nutch, um buscador opensource que se utilizava da programação distribuída entre diferentes computadores para retornar os resultados muito mais rapidamente. Em paralelo, outro buscador, chamado Google, estava sendo desenvolvido baseado no mesmo conceito de armazenamento e processamento distribuído.

Cutting foi contratado pelo Yahoo em 2006 e agregou à empresa o seu projeto Nutch, além de algumas ideias do Google sobre automatização do armazenamento e processamento das informações. Até que por fim o projeto foi dividido. O buscador manteve o nome Nutch, mas a parte de computação distribuída passou a se chamar Hadoop (nome do elefante de brinquedo do filho de Doug).

Por fim, em 2008, o Yahoo lançou o Hadoop sob licença de código fonte aberto. Atualmente o projeto é mantido pela ASF – Apache Software Foundation – e uma comunidade global de desenvolvedores.

Por que o hadoop é tão necessário no Big Data?

Com a crescente demanda pelo processamento e cruzamento de informações de big data, em vários setores distintos, como por exemplo o diagnóstico de patologias mais preciso com base em informações que até então não teria como ser analisada pelo médico, o hadoop se torna necessário principalmente por:

Grande capacidade de armazenamento: Existe uma infinidade de dados sendo gerados em dispositivos IoT e redes sociais a cada instante.
Tolerância a falhas: Se um nó cai, os outros continuam trabalhando.
Baixo custo com grande poder computacional: Ao utilizar equipamentos comuns ou várias instâncias de máquinas virtuais, o custo do processamento é infinitamente mais baixo do que se utilizasse uma única máquina de ponta capaz de processar a mesma quantidade de informações.
Flexibilidade e Escalabilidade: Dimensionar a estrutura para adequar às necessidades é um dos pontos fortes do hadoop. Os dados também podem ser armazenados para que sejam processados somente posteriormente.

Em suma, Hadoop é uma plataforma tecnológica que foi crescendo em paralelo ao volume de dados da internet e está intrinsicamente ligado às próprias necessidades da internet.

Compartilhe esse post

Cadastre-se em nossa newsletter

Conheça mais de nossos posts!

Acesse nosso blog