Publicidade
Economize: canal oficial do CT Ofertas no WhatsApp Entrar

Visão geral da arquitetura de Big Data

Por| 08 de Outubro de 2014 às 17h46

Link copiado!

Visão geral da arquitetura de Big Data
Visão geral da arquitetura de Big Data

No post inicial comentei sobre os fundamentos de Big Data. Depois comentei sobre Cloud Computing, sua importância e integração com Big Data. Vou estender esta discussão sobre a arquitetura que envolve Big Data para poder, em futuros posts, explorar e detalhar os elementos que a compõem. Com isso, passarei a mesclar conteúdos mais gerenciais com conteúdos mais técnicos.

Este é um mapa mental para visualizar os principais componentes de uma Arquitetura de Big Data:

Estão grafados no mapa os principais elementos, preocupações e necessidades de um ambiente de Big Data. Por ser um mapa mental, tanto faz por onde comecemos a analisá-lo. Utilizando uma ordem arbitrária, vou começar argumentando sobre Negócios e suas subdivisões de Competição Analítica, CRM, Marketing e Redes Sociais.

Continua após a publicidade

Sem uma boa visão e definição de Negócio, é impossível ter uma solução ou mesmo um projeto de Big Data. Saber a questão adequada para um problema de Big Data e vincular esta questão com uma necessidade real do negócio da empresa é fundamental para este tipo de projeto. Identificar oportunidades competitivas envolve conhecer melhor o cliente, o produto, a cadeia de distribuição ou produção, os fornecedores e os competidores. Big Data pode ser uma boa ferramenta para atender este objetivo. Mas sem ter em mente com clareza e precisão onde se quer chegar, fatalmente este tipo de projeto estará fadado ao fracasso.

Outro elemento extremamente importante está no Armazenamento dos Dados (o primeiro dos três Vs de Big Data). O Armazenamento envolve questões que nascem em uma Plataforma Distribuída, passa pelos bancos específicos (NoSQL) e terminam em um ambiente de Tomada de Decisão (representado pelo SQL e Data Warehouse no mapa). Não considero um grande problema. Atualmente há ferramentas que atendem com relativa facilidade esta questão.

A Escalabidade tem a ver com o Volume, mas também envolve a Variedade das origens (o segundo dos Vs) encontrada neste tipo de projeto. E isso se resolve com Processamento Paralelo, Bancos Não-Relacionais (NoSQL) e Cloud Computing. É uma solução técnica. Certamente irá evoluir para facilitar o processo, mas não é algo que deva atemorizar o condutor deste tipo de projeto.

A Coleta e Integração de Dados também é um problema que envolve os dois primeiros Vs. Está relacionado com Cloud Computing, mas encontra seus principais desafios na Ingestão e Limpeza / Tratamento de Dados. Permitam-me a redução conceitual, mas a Ingestão para mim é um ETL de alta complexidade, com inúmeras fontes e com técnicas de solução do problema muito semelhantes, mas, naturalmente, adaptadas ao volume e variedade de dados do Big Data.

Continua após a publicidade

A Segurança não está apenas relacionada à questão da Governança e seus acordos para acesso, controle e disseminação dos dados. Está intimamente relacionada à questão Ética. O que é ético fazer com dados que na grande maioria das vezes são públicos? Como uma análise dos dados públicos pode interferir na vida das pessoas? Estas questões precisam de calma e sensatez para que se possa encontrar as respostas.

A Visualização dos Dados envolve o uso e a prática de técnicas estatísticas adequadas para responder às questões de negócio que justificarão o desenvolvimento do projeto. Com estes importantes recursos da matemática, será possível estabelecer Análises de Correlação que utilizam técnicas de Data Mining (mineração de dados) aplicadas em um grande volume de dados.

Por fim, e não menos importante, o uso de técnicas de Análise avançadas, Machine Learning (aprendizagem de máquina) com algoritmos especialmente testados, desenvolvidos e aplicados para modelos de previsão permitem que o terceiro V (Velocidade) atenda às necessidades do negócio. Mostrar estas análises de maneira adequada ao tomador de decisão ou estabelecer visualização para modelos criados é o produto final de um projeto de Big Data.

Como é possível notar, todos estes elementos são importantes e devem ser considerados em um projeto de Big Data.

Continua após a publicidade

Ao longo dos próximos posts relacionados com a arquitetura e tecnologia, irei explorar estes conceitos com maior profundidade.

Até lá!