Personalizar preferências de consentimento

Utilizamos cookies para ajudar você a navegar com eficiência e executar certas funções. Você encontrará informações detalhadas sobre todos os cookies sob cada categoria de consentimento abaixo.

Os cookies que são classificados com a marcação “Necessário” são armazenados em seu navegador, pois são essenciais para possibilitar o uso de funcionalidades básicas do site.... 

Sempre ativo

Os cookies necessários são cruciais para as funções básicas do site e o site não funcionará como pretendido sem eles. Esses cookies não armazenam nenhum dado pessoalmente identificável.

Bem, cookies para exibir.

Cookies funcionais ajudam a executar certas funcionalidades, como compartilhar o conteúdo do site em plataformas de mídia social, coletar feedbacks e outros recursos de terceiros.

Bem, cookies para exibir.

Cookies analíticos são usados para entender como os visitantes interagem com o site. Esses cookies ajudam a fornecer informações sobre métricas o número de visitantes, taxa de rejeição, fonte de tráfego, etc.

Bem, cookies para exibir.

Os cookies de desempenho são usados para entender e analisar os principais índices de desempenho do site, o que ajuda a oferecer uma melhor experiência do usuário para os visitantes.

Bem, cookies para exibir.

Os cookies de anúncios são usados para entregar aos visitantes anúncios personalizados com base nas páginas que visitaram antes e analisar a eficácia da campanha publicitária.

Bem, cookies para exibir.

Big Data e Hadoop: Saiba mais sobre esses conceitos

Big-Data-e-Hadoop-Saiba-mais-sobre-esses-conceitos-1

Big data é o termo utilizado para descrever uma grande massa de dados, sejam eles dados estruturados ou não-estruturados. Esse volume de dados que constantemente é gerado todos os dias, de inúmeras formas, quando processado pode fornecer insights importantes sobre algum determinado cenário.

Na prática, analisar este volume massivo de dados pode permitir que as organizações tomem decisões melhores, uma vez que é possível visualizar indicadores que não são tão óbvios quando analisando amostras menores.

Hadoop

O Hadoop é um framework de código fonte aberto, criado para armazenar e processar dados e executar aplicações para consolidação desses dados em clusters, utilizando plataformas comuns de hardware. A principal premissa é fornecer a possibilidade de armazenar grandes volumes de dados (big data) de qualquer tipo, ter grande poder de processamento e a possibilidade de ter vários trabalhos e tarefas rodando simultaneamente.

A história do hadoop

Com o crescimento exponencial da web no final dos anos 1990, foram criados índices de sites e buscadores, com o objetivo de tornar o conteúdo que estava sendo gerado “encontrável”. Em princípio, o conteúdo era cadastrado por humanos nesses índices, uma espécie de páginas amarelas pesquisável. Com o crescimento da internet esse cadastro manual se tornou inviável, até que a operação começou a ser automatizada.

Por volta de 2002, Doug Cutting e Mike Cafarella criaram um projeto chamado Nutch, um buscador opensource que se utilizava da programação distribuída entre diferentes computadores para retornar os resultados muito mais rapidamente. Em paralelo, outro buscador, chamado Google, estava sendo desenvolvido baseado no mesmo conceito de armazenamento e processamento distribuído.

Cutting foi contratado pelo Yahoo em 2006 e agregou à empresa o seu projeto Nutch, além de algumas ideias do Google sobre automatização do armazenamento e processamento das informações. Até que por fim o projeto foi dividido. O buscador manteve o nome Nutch, mas a parte de computação distribuída passou a se chamar Hadoop (nome do elefante de brinquedo do filho de Doug).

Por fim, em 2008, o Yahoo lançou o Hadoop sob licença de código fonte aberto. Atualmente o projeto é mantido pela ASF – Apache Software Foundation – e uma comunidade global de desenvolvedores.

Por que o hadoop é tão necessário no Big Data?

Com a crescente demanda pelo processamento e cruzamento de informações de big data, em vários setores distintos, como por exemplo o diagnóstico de patologias mais preciso com base em informações que até então não teria como ser analisada pelo médico, o hadoop se torna necessário principalmente por:

  • Grande capacidade de armazenamento: Existe uma infinidade de dados sendo gerados em dispositivos IoT e redes sociais a cada instante.
  • Tolerância a falhas: Se um nó cai, os outros continuam trabalhando.
  • Baixo custo com grande poder computacional: Ao utilizar equipamentos comuns ou várias instâncias de máquinas virtuais, o custo do processamento é infinitamente mais baixo do que se utilizasse uma única máquina de ponta capaz de processar a mesma quantidade de informações.
  • Flexibilidade e Escalabilidade: Dimensionar a estrutura para adequar às necessidades é um dos pontos fortes do hadoop. Os dados também podem ser armazenados para que sejam processados somente posteriormente.

Em suma, Hadoop é uma plataforma tecnológica que foi crescendo em paralelo ao volume de dados da internet e está intrinsicamente ligado às próprias necessidades da internet.

Compartilhe esse post

Facebook
Twitter
LinkedIn
WhatsApp
Email

Cadastre-se em nossa newsletter

Conheça mais de nossos posts!