Crédito CC0:domínio público
Saber as verdadeiras vendas de uma empresa pode ajudar a determinar seu valor. Investidores, por exemplo, costumam empregar analistas financeiros para prever os próximos lucros de uma empresa usando vários dados públicos, ferramentas computacionais, e sua própria intuição. Agora, os pesquisadores do MIT desenvolveram um modelo automatizado que supera significativamente os humanos na previsão de vendas de negócios usando muito limitado, dados "ruidosos".
Em finanças, há um interesse crescente em usar dados do consumidor imprecisos, mas gerados com frequência - chamados de "dados alternativos" - para ajudar a prever os ganhos de uma empresa para fins comerciais e de investimento. Dados alternativos podem incluir compras com cartão de crédito, dados de localização de smartphones, ou mesmo imagens de satélite mostrando quantos carros estão estacionados no estacionamento de um varejista. Combinando dados alternativos com dados financeiros verdadeiros mais tradicionais, mas infrequentes, como ganhos trimestrais, comunicados de imprensa, e os preços das ações - podem pintar um quadro mais claro da saúde financeira de uma empresa, mesmo diariamente ou semanalmente.
Mas, até aqui, tem sido muito difícil obter precisão, estimativas frequentes usando dados alternativos. Em um artigo publicado esta semana no Proceedings of ACM Sigmetrics Conference, os pesquisadores descrevem um modelo de previsão financeira que usa apenas transações anônimas semanais de cartão de crédito e relatórios de ganhos de três meses.
Com a tarefa de prever ganhos trimestrais de mais de 30 empresas, o modelo superou as estimativas combinadas de analistas especialistas de Wall Street em 57% das previsões. Notavelmente, os analistas tinham acesso a quaisquer dados privados ou públicos disponíveis e outros modelos de aprendizado de máquina, enquanto o modelo dos pesquisadores usou um conjunto de dados muito pequeno dos dois tipos de dados.
"Dados alternativos são estranhos, sinais proxy para ajudar a rastrear as finanças subjacentes de uma empresa, "diz o primeiro autor Michael Fleder, pós-doutorado no Laboratório de Sistemas de Informação e Decisão (LIDS). "Nós perguntamos, 'Você pode combinar esses sinais barulhentos com números trimestrais para estimar as verdadeiras finanças de uma empresa em altas frequências?' Acontece que a resposta é sim. "
O modelo pode dar uma vantagem aos investidores, comerciantes, ou empresas que procuram comparar frequentemente suas vendas com as dos concorrentes. Além das finanças, o modelo pode ajudar cientistas sociais e políticos, por exemplo, estudar agregado, dados anônimos sobre o comportamento público. "Será útil para quem deseja descobrir o que as pessoas estão fazendo, "Diz Fleder.
Juntando-se a Fleder no papel está o professor Devavrat Shah do EECS, que é o diretor do Centro de Estatística e Ciência de Dados do MIT, membro do Laboratório de Sistemas de Informação e Decisão, um investigador principal do MIT Institute for Foundations of Data Science, e professor adjunto do Instituto Tata de Pesquisa Fundamental.
Resolvendo o problema dos "pequenos dados"
Para melhor ou pior, muitos dados do consumidor estão à venda. Revendedores, por exemplo, pode comprar transações de cartão de crédito ou dados de localização para ver quantas pessoas estão comprando em um concorrente. Os anunciantes podem usar os dados para ver como seus anúncios estão impactando as vendas. Mas obter essas respostas ainda depende principalmente dos humanos. Nenhum modelo de aprendizado de máquina foi capaz de processar os números de maneira adequada.
Contra-intuitivamente, o problema é, na verdade, falta de dados. Cada entrada financeira, como um relatório trimestral ou total semanal do cartão de crédito, é apenas um número. Os relatórios trimestrais ao longo de dois anos totalizam apenas oito pontos de dados. Dados de cartão de crédito para, dizer, todas as semanas durante o mesmo período são apenas cerca de outros 100 pontos de dados "barulhentos", o que significa que contêm informações potencialmente não interpretáveis.
"Temos um problema de 'pequenos dados', "Fleder diz." Você obtém apenas uma pequena fatia do que as pessoas estão gastando e tem que extrapolar e inferir o que realmente está acontecendo a partir dessa fração de dados. "
Por seu trabalho, os pesquisadores obtiveram transações de cartão de crédito ao consumidor - em intervalos tipicamente semanais e quinzenais - e relatórios trimestrais para 34 varejistas de 2015 a 2018 de um fundo de hedge. Em todas as empresas, eles coletaram 306 trimestres de dados no total.
O cálculo das vendas diárias tem um conceito bastante simples. O modelo assume que as vendas diárias de uma empresa permanecem semelhantes, diminuindo ligeiramente ou aumentando de um dia para o outro. Matematicamente, isso significa que os valores de vendas para dias consecutivos são multiplicados por algum valor constante mais algum valor de ruído estatístico - que captura parte da aleatoriedade inerente nas vendas de uma empresa. Vendas de amanhã, por exemplo, igual às vendas de hoje multiplicadas por, dizer, 0,998 ou 1,01, mais o número estimado de ruído.
Se dados parâmetros de modelo precisos para a constante diária e nível de ruído, um algoritmo de inferência padrão pode calcular essa equação para gerar uma previsão precisa das vendas diárias. Mas o truque é calcular esses parâmetros.
Desembaraçando os números
É aí que os relatórios trimestrais e as técnicas de probabilidade são úteis. Em um mundo simples, um relatório trimestral pode ser dividido por, dizer, 90 dias para calcular as vendas diárias (o que implica que as vendas são praticamente constantes no dia a dia). Na realidade, as vendas variam de um dia para o outro. Também, incluir dados alternativos para ajudar a entender como as vendas variam ao longo de um trimestre complica as coisas:além de ser barulhento, os dados do cartão de crédito adquirido sempre consistem em alguma fração indeterminada das vendas totais. Tudo isso torna muito difícil saber exatamente como os totais do cartão de crédito influenciam na estimativa geral de vendas.
"Isso requer um pouco de desembaraçar os números, "Diz Fleder." Se observarmos 1 por cento das vendas semanais de uma empresa por meio de transações com cartão de crédito, como sabemos que é 1 por cento? E, se os dados do cartão de crédito forem ruidosos, como você sabe o quão barulhento é? Não temos acesso à verdade básica para os totais de vendas diários ou semanais. Mas os agregados trimestrais nos ajudam a raciocinar sobre esses totais. "
Para fazer isso, os pesquisadores usam uma variação do algoritmo de inferência padrão, chamado de filtragem de Kalman ou propagação de crenças, que tem sido usado em várias tecnologias, de ônibus espaciais a GPS para smartphones. A filtragem de Kalman usa medições de dados observadas ao longo do tempo, contendo imprecisões de ruído, para gerar uma distribuição de probabilidade para variáveis desconhecidas ao longo de um período de tempo designado. No trabalho dos pesquisadores, isso significa estimar as vendas possíveis em um único dia.
Para treinar o modelo, a técnica primeiro divide as vendas trimestrais em um determinado número de dias medidos, digamos 90 - permitindo que as vendas variem no dia a dia. Então, corresponde ao observado, dados barulhentos de cartão de crédito para vendas diárias desconhecidas. Usando os números trimestrais e algumas extrapolações, ele estima a fração das vendas totais que os dados do cartão de crédito provavelmente representam. Então, ele calcula a fração de cada dia das vendas observadas, nível de ruído, e uma estimativa de erro de quão bem fez suas previsões.
O algoritmo de inferência conecta todos esses valores na fórmula para prever os totais de vendas diárias. Então, pode somar esses totais para obter semanalmente, por mês, ou números trimestrais. Em todas as 34 empresas, o modelo bateu um benchmark de consenso - que combina estimativas de analistas de Wall Street - em 57,2 por cento de 306 previsões trimestrais.
Próximo, os pesquisadores estão projetando o modelo para analisar uma combinação de transações de cartão de crédito e outros dados alternativos, como informações de localização. "Isso não é tudo que podemos fazer. Este é apenas um ponto de partida natural, "Diz Fleder.