Quer prever a loucura de março? Novo método identifica estatísticas-chave, supera os outros em precisão
p Pesquisadores da Universidade de Illinois desenvolveram um método usando inferência causal para prever transtornos no Torneio de Basquete Masculino da NCAA que supera muitas outras técnicas. Além de maior precisão, o método se destaca porque se baseia em dados disponíveis publicamente, tornando-o reproduzível e mais acessível para outros usarem. p O artigo relatando o método foi publicado na American Statistical Association (ASA)
Journal of Quantitative Analysis in Sports (JQAS) por Sheldon H. Jacobson (Universidade de Illinois em Urbana-Champaign), Jason J. Sauppe (Universidade de Wisconsin La Crosse) e Shouvik Dutta (ex-aluno de graduação da Universidade de Illinois). Resumidamente, a técnica identifica possíveis transtornos usando apenas um pequeno número de estatísticas disponíveis publicamente, identificando comparações no ano atual que exibem características semelhantes às exibidas por históricos de 64 transtornos.
p Usando árvores de decisão, aprendizado de máquina, e inferência causal, Jacobson e seus colaboradores analisaram 115 estatísticas disponíveis publicamente para detectar as 15 mais importantes para identificar problemas nos confrontos da primeira rodada entre as equipes semeadas 2 e 15, 3 e 14, e 4 e 13. Entre os mais influentes dos 15 estavam a taxa de posse efetiva - o número de posses e rebotes ofensivos menos o número de perdas, tudo dividido pelo número de posses - o número de jogos disputados na temporada regular e uma medida de chances de gol por jogo.
p As diferenças nessas 15 estatísticas entre as duas equipes em cada reviravolta histórica são então usadas para construir um perfil de reviravoltas anteriores. Finalmente, os perfis de virada podem ser comparados a rodadas de 64 jogos no ano atual para encontrar combinações que mais se assemelham a reviravoltas históricas.
p Jacobson e co-autores aplicaram sua abordagem ao torneio da NCAA em cada um dos 13 anos de 2003 a 2015. Dos 26 jogos selecionados, 10 (38,4%) foram transtornos reais, que é mais do que o dobro do número esperado de seleções corretas ao usar um método de seleção aleatória ponderada.
Identificar fatores causais no torneio da NCAA é um desafio por muitos motivos, um sendo que os ensaios clínicos randomizados - um método estabelecido idealmente adequado para identificar causalidade - não é uma opção. "Ao abordar o problema como um problema de inferência causal usando dados observacionais, "disse Jacobson, "fomos capazes de melhorar a previsão de transtornos em relação ao puro acaso."
p Seleção de subconjunto de otimização de equilíbrio apelidado (ou BOSS), a estrutura pode ser aplicada a uma ampla gama de dados nas ciências sociais e na medicina. A pesquisa inicial para a ideia do BOSS foi apoiada em parte pela National Science Foundation. "A abordagem de covariável de equilíbrio adotada pelos autores é nova no contexto de uma aplicação esportiva, "disse Mark Glickman (Harvard University), ex-editor-chefe da
JQAS quem manipulou este manuscrito. "É revigorante ver a inferência causal desempenhar um papel proeminente na avaliação dos fatores que afetam os transtornos do jogo."
p As projeções de Jacobson para o torneio deste ano serão publicadas após o Domingo de Seleção em http://bracketodds.cs.illinois.edu, um laboratório de aprendizagem STEM focado nas estatísticas de March Madness.
p "March Madness é uma excelente oportunidade para todas as pessoas, jovem e velho, para desfrutar de um evento esportivo nacional e, ao mesmo tempo, apreciar como as estatísticas e a ciência de dados lançam luz sobre o torneio. Simplificando, nosso programa de pesquisa sobre análise de dados ajuda a dar sentido à loucura, "disse Jacobson.
p Jacobson é jurado no segundo concurso anual de Statsketball, hospedado por
Isto são estatísticas (http://thisisstatistics.org), a campanha da ASA para fazer com que os alunos, professores e pais cientes das muitas carreiras capacitadas pelo pensamento estatístico.