Variáveis como hora do dia, o local e a densidade populacional ajudam a classificar um determinado lote de terreno como estando em risco ou sem risco de roubo em determinado momento. Crédito:ETH Zurique
Um novo método de aprendizado de máquina desenvolvido por cientistas da ETH torna possível prever roubos mesmo em áreas escassamente povoadas.
As invasões não acontecem em todos os lugares o tempo todo. Certas comunidades, bairros e ruas, bem como estações do ano e horas do dia, têm um risco menor ou maior de ocorrência de roubo. Usando estatísticas de invasão, técnicas de aprendizado de máquina podem identificar padrões e prever o risco de uma invasão em um local específico. Os programas de computador podem, portanto, ajudar a polícia a identificar pontos críticos de roubo - locais com risco particularmente alto de invasão - em qualquer dia, permitindo-lhes implantar patrulhas de acordo.
O desequilíbrio de classe torna o aprendizado mais difícil
A data, esses sistemas de alerta funcionam apenas em áreas densamente povoadas, principalmente nas cidades. Isso porque os programas de computador precisam de dados suficientes para reconhecer padrões, e o crime é menos frequente em áreas escassamente povoadas. Isso é conhecido como "desequilíbrio de classe" nas estatísticas. Especificamente, isso significa que para cada seção da estrada que tem um roubo, há várias centenas ou mesmo mil que não o fazem.
Algoritmos funcionam em paralelo
Cristina Kadar é cientista da computação e doutoranda no Departamento de Gestão, Tecnologia, e Economia. Ela desenvolveu um método que pode fazer previsões confiáveis, apesar dos dados desequilibrados. Sua pesquisa acaba de ser publicada na revista Decision Support Systems. Ela testou vários métodos de aprendizado de máquina com um grande conjunto de dados de roubos no cantão suíço de Aargau, combinou-os e comparou as taxas de acerto. Um método que usa ensemble learning e combina análises de diferentes algoritmos provou ser o mais preciso.
Aprendizado de máquina é quando um algoritmo usa grandes conjuntos de dados para se treinar para classificar os dados corretamente. Neste exemplo, leva variáveis como a hora do dia, Lugar, colocar, densidade populacional e muito mais e aprende com eles se deve classificar um determinado lote de terra como em risco ou não sob risco de roubo em um determinado momento.
O desafio estava em treinar os algoritmos de classificação, apesar do pequeno número de roubos no conjunto de dados. Kadar pré-processou o conjunto de dados removendo unidades de dados aleatoriamente sem assaltos até chegar ao mesmo número de unidades com assaltos e unidades sem. Este método estatístico é denominado "subamostragem aleatória". Kadar treinou vários algoritmos de classificação com este conjunto de dados reduzido em paralelo, e suas previsões agregadas produziram a previsão de roubo. Kadar pegou células de grade de 200 por 200 metros em um determinado dia como suas unidades de dados individuais.
Embora os sistemas de alerta convencionais usem principalmente dados de roubo, Kadar também alimentou os algoritmos de classificação com dados populacionais agregados impessoais, como densidade populacional, estrutura etária, tipo de desenvolvimento de construção, infraestrutura (presença de escolas, estações de polícia, hospitais, estradas), proximidade com as fronteiras nacionais, bem como informações temporais, incluindo o dia da semana, feriados públicos, horas de luz do dia e até a fase da lua.
Taxa de acerto melhor do que nas cidades
Com o novo método, O Kadar foi capaz de melhorar significativamente a taxa de acerto em comparação com os métodos convencionais. Ela instruiu o computador a usar seu método na previsão de pontos críticos onde era provável que ocorressem roubos dentro do cantão. Uma revisão mostrou que cerca de 60 por cento das invasões reais foram cometidas nos hotspots previstos. Por comparação, quando os pontos de acesso foram previstos usando o método tradicional empregado pela polícia, apenas 53 por cento dos roubos reais ocorreram na área prevista. "Com dados desequilibrados, o método atinge pelo menos igualmente bom e em alguns casos melhores taxas de acerto do que os métodos convencionais em áreas urbanas, onde os dados são mais densos e distribuídos de maneira mais uniforme, "diz Kadar.
As descobertas são úteis principalmente para a polícia, já que o método também pode ser usado para prever regiões e horários com maior risco de roubo em áreas menos densamente povoadas. Contudo, não há razão para que o método não possa ser usado para prever outros riscos:riscos à saúde, por exemplo, ou a probabilidade de chamadas de emergência para o serviço de ambulância. O setor imobiliário também poderia usá-lo para prever a evolução dos preços dos imóveis com base em fatores espaciais.