Desmistificando o Big Data: saiba o que ele é e para que serve

Por Colaborador externo | 01.10.2013 às 11:35

Por Marcelo Lombardo*

Certamente você já ouviu esse termo várias vezes como sendo uma das maiores revoluções da tecnologia moderna. Big Data está ficando tão falado que quase virou um daqueles termos que ninguém sabe o que é, mas tem vergonha de perguntar. Então, vamos entender, sem termos técnicos, que “raios” é isso e por que o Big Data vai mudar (ou está mudando) a sua vida – quer você queira ou não.

Conceitualmente, Big Data é a habilidade de capturar, armazenar e processar grandes quantidades de dados em busca de correlações. A grande diferença entre “Big Data” e “buscar uma agulha num palheiro” é que, no segundo caso, procuramos uma agulha, e no primeiro, nós não sabemos exatamente o que estamos procurando até encontrarmos. É uma aventura de descobertas através do cruzamento de números e estatísticas que revelam segredos e comportamentos do consumidor escondidos no perfil de cada usuário, como tendências, modelos, etc.

Pode parecer tudo bastante vago, mas isso pode ser facilmente compreendido através de exemplos que mostram como ver o mundo a partir do Big Data. Então vamos lá: uma empresa norte-americana conduziu uma pesquisa para obter um método de prever se um carro usado terá ou não problemas, antes de comprá-lo em um leilão. Como em casos de leilão você não pode examinar detalhadamente o carro antes de dar o lance, estabelecer este método poderia significar uma vantagem competitiva muito grande, embora fosse uma questão bem difícil de ser alcançada.

Na dita pesquisa, os cientistas cruzaram toneladas de informações e dados históricos, chegando a uma conclusão bizarra: carros cor de laranja são os com menor probabilidades de apresentar problemas. Veja, eles não procuravam por “carros laranja”. Estavam cruzando dados de origem, fabricante, marca, ano, modelo, tipo de roda, tipo de câmbio, tamanho, local de compra, preço, cor, etc., etc., e acabou que encontraram uma correlação entre a quantidade de problemas e a cor.

Mas por que a cor? Seria porque carros laranja são mais visíveis e se envolvem menos em acidentes? Ou porque donos de carros laranja buscam coisas diferenciadas e as mantêm com mais cuidado? A resposta dolorida é: não interessa o porquê. Talvez nunca saibamos, mas os números dizem a verdade: nos USA, carros laranja têm 50% menos problemas que outras cores. As correlações detectadas nos números são fatos, e para quem está buscando o resultado, o porquê pouco importa; mas o que fazer com a informação, sim, isto importa – e muito.

Tudo isso só é possível graças ao grande poder de coleta de dados, armazenamento e processamento existente hoje em dia. Vamos ver outro exemplo famoso? Em 2008 estava começando a estourar no mundo a pandemia de influenza H1N1. Os dados de como e onde o vírus se alastrava eram por demais desatualizados, pois ele incubava por praticamente duas semanas antes do paciente procurar ajuda, quando o caso era registrado nos órgãos competentes, que por sua vez demoravam mais ainda para agregar os dados às estatísticas. Para ter algum efeito preventivo, o CDC americano (espécie de ministério da saúde deles) precisava saber muito antes onde seria o próximo foco de infecção.

Quem matou a charada? O Google. Quando uma pessoa começa a sentir qualquer sintoma, muitas vezes ela pesquisa no Google em busca de informação. E quais termos ela pesquisa? Não sabemos (mas isso não importa). Os cientistas do Google cruzaram milhões de pesquisas feitas semanas antes do H1N1 ser detectado em uma região pelos dados oficiais e comparando-as com as pesquisas que estavam sendo feitas no momento, conseguiram descobrir as correlações e criar um gráfico que previa, em tempo real, como o H1N1 estava se espalhando. O método mostrou mais de 90% de eficiência. Hoje, esse serviço está disponível a todos gratuitamente e mostra não apenas a influenza, mas também outras doenças.

Esses exemplos mostram bem o conceito do Big Data funcionando. Mas ele também tem facetas comerciais, como prever tendências de compras e preços, além de um lado sombrio em que a privacidade e o uso de dados analíticos começam a ser questionados, pois desde a expansão dos acessos à internet e a imensa popularização das redes sociais, torna-se relativamente fácil observar e armazenar o comportamento de uma pessoa em seu dia a dia.

* Marcelo Lombardo é sócio fundador da NWG Tech e criador do Omie, software de gestão para micro e pequenas empresas.