Como formular a pergunta certa para Big Data

Por Celso Poderoso

No último artigo eu introduzi o assunto de Aprendizagem de Máquina e o vínculo com Big Data. Terminei argumentando que provavelmente a parte mais difícil do processo seja elaborar uma boa questão de Big Data.

Muitas vezes sou surpreendido com pessoas querendo desenvolver projetos “de Big Data”. A meu ver isso é um tanto quanto equivocado. A questão não é fazer um projeto de Big Data, mas sim saber se Big Data vai ajudar a resolver uma boa questão de negócio. Entendo que Big Data não é o bolo, mas sim a cereja.

Para ter uma boa questão de negócio é importante que a estratégia da organização esteja claramente definida. Com base na estratégia é possível identificar projetos que permitam alcançar um ou mais destes elementos.

Identificado um ou mais projetos, é a hora de perguntar se a empresa possui um repositório de dados que possua condições de identificar e entender as situações do passado. Este repositório normalmente é o Data Warehouse. Costuma-se dizer que o Data Warehouse é como se fosse o retrovisor de um veículo. Se conseguimos enxergar com clareza o histórico de dados da organização, é bem provável que consigamos identificar padrões no Data Warehouse. A partir de um padrão é possível realizar as previsões.

Portanto, antes de iniciar qualquer projeto que pode ou não vir a utilizar Big Data, verifique se o seu Data Warehouse está bem estruturado. Ele será importante para criar os modelos que atenderão os objetivos de negócio da empresa.

Mas e a questão de Big Data? Eu desenvolvi um mapa mental para guiar o tipo de questão que pode ser aplicado para resolver problemas de negócio.

Questões Big Data

De todos os tipos de questões possíveis, notamos que o menos usual (pelo menos por enquanto) são as questões mecânicas ou puramente físicas. Todas as outras são possíveis de serem propostas e testadas utilizando abordagens relacionadas aos dados. As questões exploratórias e descritivas normalmente são bem resolvidas com o Data Warehouse, portanto podem servir para identificar padrões (data mining), mas não necessariamente para realizar previsões. Por outro lado, questões inferenciais, causais e preditivas são utilizadas amplamente para as previsões.

Observe que para realizar previsões será necessário ter as causas e a descrição do que aconteceu disponível. Vou tentar esclarecer com um exemplo mais prático: se eu quero saber a previsão de vendas para o próximo trimestre, pode ser suficiente coletar dados de produtos, vendas e período em que as vendas ocorreram (dados históricos). Aplico um modelo matemático (neste caso uma regressão linear pode ser suficiente) e projeto as vendas para um período posterior (seguindo o processo explicado no meu artigo anterior). Para este processo eu utilizo dados que descrevem o passado para identificar um padrão e poder extrapolar os dados para o futuro.

Para este exemplo, uma boa questão de negócio seria: “Qual a previsão de faturamento de um determinado produto para o próximo trimestre?”.

O vínculo da questão com a estratégia da empresa é fundamental para justificar um projeto. Um grande jornal norte-americano, em função da queda constante no volume de assinaturas, precisou elaborar uma questão que permitisse estancar ou pelo menos diminuir este problema. A questão de negócio, neste caso, foi: “Qual a probabilidade do cliente X cancelar a assinatura do jornal nos próximos três meses?”.

Identificada a questão, inicia-se uma busca nos dados disponíveis e inicia-se o processo de criação do modelo que melhor responde a demanda.

Mas e o Big Data? Como argumentei no início, ele pode ser visto como a cereja do bolo. Eu posso responder estas e diversas outras questões de negócio sem precisar utilizar um único dado externo à organização (Big Data, por exemplo). Mas se eu conseguir um bom modelo matemático que permita realizar as previsões com boa dose de acerto, certamente eu conseguirei acrescentar uma ou mais variáveis que envolvem Redes Sociais, Sensores, Dados disponíveis na Internet, Previsão do Tempo e inúmeros outros dados que irão melhorar este modelo.

De um modo geral, a minha sugestão é procurar iniciar um projeto com os dados que estão disponíveis na empresa, validar e testar o modelo. A partir de um bom modelo é possível identificar potencial para melhoria da previsão através da utilização de Big Data.

No próximo artigo vamos comentar sobre Governança em projetos de Analytics e Big Data.

Até lá!