Big Data – arquitetura do ambiente

Por Celso Poderoso

Big Data é um dos mais novos buzzwords da computação. E como tal, gera dúvidas não apenas na definição, como também no fato de um projeto estar ou não relacionado a Big Data.

Desde o início, Big Data vem sendo definido com 3 Vs: Volume, Velocidade e Variedade. Alguns acrescentaram mais 2 Vs: Veracidade e Valor. Se quanto aos três primeiros não resta dúvida alguma, os dois últimos merecem um pouco de atenção. Entendo que Veracidade e Valor são atributos específicos do Dado. Sem estes atributos, seja Big Data ou não, o dado não servirá para nada.

De qualquer forma, com 3 ou 5 Vs, o importante é que o Big Data está nos levando a uma nova etapa da forma como lidamos com os dados e abrindo excelentes oportunidades para aumentar a inteligência dos negócios, além de permitir uma melhoria no processo de tomada de decisão.

Os 3 Vs

O fenômeno Big Data está associado com a multiplicação dos sensores espalhados por diversos dispositivos que iniciam com computadores e se expandem para celulares, tablets, GPS, etiquetas de RFID, etc. O uso crescente das Redes Sociais e a possibilidade de extração, o acompanhamento dos cliques que realizamos em sites e a possibilidade de conexão com outros dispositivos faz com que o volume de dados gerados em todo o planeta seja extraordinariamente grande. Mais do que isso, os dados que antes se limitavam a tabelas, planilhas ou outras formas estruturadas de armazenar e acessar informações agora assumem aspectos diferenciados, como arquivos de áudio, vídeos, e-mails, páginas de internet, etc. A necessidade de tomar decisões cada vez mais rápidas e de capturar o “humor” do interlocutor naquele momento leva à necessidade de oferecer rapidamente estes dados em qualquer formato para o tomador de decisão.

Arquitetura de Big Data

Para atender a esta demanda é necessário estabelecer uma arquitetura tecnológica compatível. O momento tecnológico que vivemos permitiu estabelecer formas de armazenar dados não estruturados. Armazenar e recuperar dados não estruturados exige uma forma diferenciada em relação ao que tem sido feito até então. Um novo padrão de banco de dados foi criado para isto. Eles são chamados de NoSQL (Not Only SQL). E os bons e velhos arquivos texto, imagens, voz, etc. que são armazenados diretamente no sistema operacional voltam a fazer parte do contexto da análise de dados.

Os bancos de dados padrão SQL são amplamente conhecidos no mundo corporativo. Eles facilitaram muito o acesso e disponibilização dos dados nas organizações. Porém, eles foram criados para lidar com dados estruturados. Quando se fala em dados estruturados, o que se quer dizer é que o dado estará formatado para trabalhar com um padrão baseado em linhas e colunas, com uma sintaxe robusta e uma modelagem consistente. Como informado anteriormente, para manipulação de dados não estruturados utiliza-se muitas vezes o próprio sistema de arquivos (Linux e MS Windows, por exemplo).

Os principais componentes desta arquitetura são (mas não se limitam a):

  1. Hadoop: plataforma para armazenamento e processamento de um grande volume de dados utilizando hardware simples e que normalmente utilizam clusters para agilizar o acesso e manipulação dos dados;
  2. MapReduce: modelo de programação paralela, escalável e que permite a utilização de hardware simples para realizar trabalhos complexos;
  3. NoSQL: banco de dados que permite armazenar e recuperar dados com menos restrições do que os bancos de dados relacionais. Possui uma modelagem mais simples e permite aumentar a escalabilidade e disponibilidade do ambiente;
  4. SQL: bancos de dados tradicionais que armazenam a maior parte dos dados estruturados nas organizações. Os dados normalmente têm origem em sistemas ERP, SCM (Supply Chain), CRM, etc.;
  5. DW: O Data Warehouse é um banco de dados apartado do banco de dados dos sistemas transacionais que são modelados para facilitar a análise de dados para a tomada de decisão.

A utilização de alguns destes componentes em conjunto indica o trabalho em um ambiente de Big Data. Ao se utilizar um dos componentes isoladamente, dificilmente se estará trabalhando com Big Data.

Celso Poderoso é mestre em Tecnologia, especialista em Sistemas de Informação e economista. É professor dos cursos de graduação tecnológica da FIAP. Atua desde 1984 na área de TI, especialmente em desenvolvimento de sistemas e banco de dados Oracle. Possui cinco livros publicados na área de banco de dados, como SQL Curso Prático e Oracle PL/SQL 10g. Todos editados pela Novatec Editora.