Ciência de Dados: 3 ações básicas para começar

Por Stephanie Kohn | 27.07.2017 às 19:19

Na definição de Fabiane Nardo, chief data scientist da Tail Target, a Ciência de Dados nada mais é que a união de Big Data, estatística e Inteligência Artificial, mas não necessariamente é preciso as três variáveis combinadas. É possível fazer ciência de dados com uma quantidade menor de dados ou sem Inteligência Artificial. A especialista, aliás, indicou três ações básicas para começar sem a ajuda de uma máquina, mas por meio de métodos de estatística, matemática e muito desconfiança.

“Para fazer ciência de dados é necessário pensar como um hacker. Cruzar dados sem ciência é um risco, pois pode levar a conclusões erradas e consequentemente a prejuízos financeiros gigantescos. A ciência é ter certeza de que aquela conclusão é verdadeira”, explicou durante painel do Fórum E-commerce.

Para ilustrar o que um cruzamento errado de dados pode causar, ela relembra um gráfico que correlaciona a queda do uso do Internet Explorer com os assassinatos nos Estados Unidos. Uma brincadeira que sugere que se o navegador da Microsoft acabe, a criminalidade no país será extinta. “São dados verdadeiros, mas a conclusão é errada. E casos como este existem aos montes”, diz.

O primeiro passo rumo a Ciência de Dados é definir o tamanho da sua amostra. Por exemplo, em um banco de 200 milhões de pessoas, para saber quantas são homens e quantas são mulheres, não é necessário analisar todos dados registrados, basta definir uma amostra. Para isso, ela usa duas fórmulas matemáticas:

n = (z * stddev / mde)2

Sendo n o tamanho da amostra, stddev, o desvio padrão da população, sempre fixado em 0,5, e mde a margem de erro. O z é o valor do z-score, o fator de confiança, um índice que pode ser encontrado facilmente na web. A segunda amostra segue da seguinte forma:

nreal = (n * p) / (n + p - 1)

Sendo n o tamanho da amostra, nreal, o tamanho real da amostra e o p, o tamanho da população. Com o tamanho real da amostra em mãos e o número do tamanho da população é possível identificar a quantidade de dados que precisará ser analisado.

“Neste exemplo é possível perceber que independente do tamanho da população o resultados será igual quando analisamos cerca de 20 mil dados. Chega um ponto em que uma boa amostra pode representar uma quantidade imensa de dados.”

Ainda usando conceitos de estatística, Fabiane entra no segundo passo, a predição. Esta é uma técnica muito importante e valiosa em qualquer negócio especialmente na internet. Com ela é possível saber, por exemplo, a quantidade de máquinas que um e-commerce vai precisar contratar antes mesmo de chegar ao ponto máximo do tráfego.

A dica é analisar o passado e definir um padrão que servirá como base para o futuro. A especialista diz que é preciso retirar dos dados antigos de tráfego todos os outliers (picos e quedas) e construir, por meio de uma técnica chamada de interpolação, os caminhos de tráfego nos espaços em que estavam os outliers.

Por conceito, os outliers são valores atípicos ou inconsistentes.Tratam-se de comportamentos pontuais do tráfego e não um padrão e, por isso, devem ser retirados das análises. Interpolação por sua vez é um método matemático que permite construir um novo conjunto de dados a partir de um conjunto discreto previamente conhecido.

Ao unificar estas técnicas é possível construir um padrão do tráfego, baseado em dados antigos, e consequentemente prever o comportamento futuro. “O que estou ensinando aqui é fazer predições sem Inteligência Artificial, mas usando métodos simples e já conhecidos”, comenta.

Por fim, o último passo é determinar a confiança dos dados. Imagine a seguinte situação: o layout A obteve 100 visitas e converteu 4 pessoas, ou seja, a taxa de conversão foi de 4%. Já o layout B teve 40 visitas e converteu 2 pessoas, com uma taxa de 5%. Olhando a porcentagem final, parece óbvio que o layout B é melhor, mas na prática não é bem assim.

“Considerando que o custo para a empresa mudar definitivamente do layout A para o B seria de R$ 1 milhão é necessário fazer bem mais experimentos em cima destes dados para tomar a decisão final. Sendo assim, o ideal é usar a técnica chamada de Approximate Bayesian computation (ABC).”

Em outras palavras, o ABS vai simular inúmeras vezes cada resultado para identificar quantas vezes o layout B foi melhor que o A. “A partir das simulações chegamos a conclusão de que a probabilidade de que B é melhor que A é de 64,4%. Ou seja, não vale a pena para o meu negócio apostar no layout B, pois a confiança deste dado é baixa. Para fazer uma mudança de R$ 1 milhão é preciso ter, pele menos, 90% de confiança no dado”, explica.

Em resumo, o dado que mostrou que o layout B gerou mais conversões não deve ser levado a sério, já que tem menos de 90% de confiabilidade quando simulado inúmeras vezes.

Deu nó na cabeça? Normal. No início não foi fácil nem para a Fabiane. Apesar de ser PhD em Engenharia Eletrônica pela Escola Politécnica da USP, mestre em Ciência da Computação pela Universidade de São Paulo, bacharel em Ciência da Computação pela Universidade de Passo Fundo, ela ainda teve que aprender na raça muitos conceitos de estatísticas, fazer alguns cursos extras e ler muitos livros. 

“Existem muitas ferramentas boas no mercado para fazer a ciência dos dados, mas você precisa de background. Você precisa sempre desconfiar dos dados e fazer experimentos. É pensar com a cabeça de um cientista para ter certeza de que você chegou a conclusão verdadeira”, diz.

Para quem se interessou em se aprofundar no assunto, Fabiane dá dicas: "Fiz cursos da Stanford e Universidade de Washington no Cursera e li um livro que me ajudou muito chamado de The Sign and The Noise."