top of page

Conheça o Hadoop, sistema de código aberto que iniciou o processamento de Big Data

Ao mesmo tempo em que revolucionou a ciência de dados, o Big Data desafiou toda a estrutura de tecnologia da informação até então utilizada no mundo. Alguns projetos tiveram importância crucial na viabilização do processamento de dados não-estruturados em grande volume. Um deles é o Hadoop,  plataforma de softwares de código aberto consagrada na comunidade de TI.

Mas por que o Hadoop alcançou uma importância tão grande? É o que vamos abordar neste artigo, trazendo um pouco sobre a história do projeto, como o sistema funciona na prática (de forma simplificada, é claro) e para quais tipos de aplicação é utilizado atualmente.

Se você se interessa por análise de dados e Big Data, não há como deixar de conhecer o Hadoop. A presença da plataforma é sistemática, de pequenas a grandes empresas. Siga com a leitura e você vai entender quais diferenciais tornam esse sistema único.

Para começar: o que é e como funciona o Hadoop

O Hadoop é uma plataforma de softwares de código aberto, com componentes que permitem o processamento de dados com base em computação distribuída. Se esses termos são muito complexos para você, não se preocupe, porque vamos explicá-los em detalhes a seguir.

Uma das características principais do Hadoop – e que explica, em parte, o sucesso que alcançou – é o fato de ter código aberto. Ou seja, o sistema é desenvolvido de forma colaborativa e qualquer pessoa ou empresa pode ter acesso livre ao código para alterá-lo a partir do que considerar relevante.

Outro ponto importante sobre o Hadoop é que o sistema tem capacidade de armazenar e processar todos os tipos de dados rapidamente, até mesmo não-estruturados. Isso já faz do Hadoop uma plataforma de softwares promissora em termos de Big Data.

Por meio da computação distribuída, o Hadoop oferece alto poder computacional. Na prática, isso quer dizer que o sistema processa grandes volumes de dados – outro aspecto inerente ao Big Data. E não há necessidade de hardwares sofisticados para fazer os componentes do Hadoop trabalharem.

A lógica por trás do processamento distribuído é a seguinte: o poder computacional é construído pela interligação entre computadores comuns. As unidades processadoras (CPUs) estão separadas fisicamente, mas compartilham informações – nesse caso, por meio do Hadoop.

O poder total de processamento depende de quantos nós computacionais existem em um cluster, ou seja, do número de CPUs que formam um sistema. É por esse motivo que o Hadoop é considerado uma solução de baixo custo para implementação de Big Data.

Um ponto importante a ser destacado é que o Hadoop não se resume a apenas um software. Na verdade, trata-se de um conjunto de componentes acessível – tanto pelo fato de ter código aberto como pela linguagem utilizada na programação – que permite às empresas aproveitar os benefícios de Big Data sem que seja necessário alto investimento.

Hadoop

História do Hadoop

A origem do Hadoop remete ao movimento global para criação de motores de busca que fossem capazes de oferecer respostas automatizadas a pesquisas feitas na internet. No início dos anos 2000, à medida que a web crescia de forma exponencial, muitos projetos nasceram com esse objetivo.

Um desses projetos era o Apache Nutch, idealizado por Doug Cutting e Mike Cafarella em 2002. Pouco tempo depois de começar os trabalhos, a equipe envolvida percebeu que a estrutura prevista para o sistema não poderia escalar a ponto de acompanhar a multiplicação de páginas web, que já chegavam aos bilhões.

Em 2003, a publicação de um paper mudou os rumos do Nutch. Nesse artigo, estava descrita a arquitetura do Google File System (GFS), um sistema de arquivos distribuídos, que influenciou a implementação em código aberto do Nutch Distributed File System (NDFS).

No mesmo ano que o NDFS ganhou vida, 2004, a Google já havia avançado para a apresentação do MapReduce, modelo de programação desenhado para processar grandes volumes de dados em paralelo. Em 2005, os desenvolvedores do Nutch seguiram o mesmo caminho.

A essa altura, tanto o NDFS como o MapReduce tinham extrapolado a atuação enquanto motores de busca. O que aconteceu, então, foi um desmembramento, e o Hadoop tomou forma como projeto independente focado em armazenamento e processamento distribuído de dados. Doug Cutting passou a liderar uma equipe no Yahoo! dedicada exclusivamente ao Hadoop.

Em abril de 2008, o Hadoop se consagrou como o sistema mais rápido do mundo, processando um terabyte de dados em 209 segundos. Atualmente, o Hadoop é mantido pela Apache Software Foundation, uma comunidade mundial de desenvolvedores, mantendo a sua essência open-source.

O sistema é disponibilizado pela Apache em módulos básicos, que tornam a manipulação do software muito restrita a profissionais de TI especializados. É por essa razão que, ao longo do tempo, foram criadas versões comerciais do Hadoop, como a Cloudera, mais acessíveis no que se refere à instalação e execução.

Um fato interessante na história do Hadoop é a escolha do nome para o sistema, que muitas pessoas pensam se tratar de uma sigla. Na verdade, Doug Cutting se inspirou no nome que sua filha deu a um elefante de pelúcia amarelo.