Crédito CC0:domínio público
E-mails de spam, fraude bancária, diabetes, trabalhadores abandonando seus empregos. O que esses tópicos têm em comum? A resposta pode ser encontrada na pesquisa de aprendizado de máquina na Binghamton University.
Dana Bani-Hani, um aluno de doutorado estudando engenharia industrial e de sistemas, passou os últimos anos ensinando máquinas a ler conjuntos de dados em qualquer setor. O sistema que ela codificou, chamada de Rede Neural de Regressão Geral Recursiva Oracle (R-GRNN Oracle), recebe entradas de dados e cria saídas de previsão.
Os modelos de regressão não são novos na ciência e análise de dados, mas o que Bani-Hani criou vai além do básico. Um sistema típico usa algoritmos, chamados classificadores, que passam por um conjunto de dados de muitas variáveis diferentes para criar uma previsão. Oráculos são criados para executar vários conjuntos desses classificadores para ver qual algoritmo cria a previsão mais precisa.
Por exemplo, um classificador pode olhar uma miríade de e-mails e levar em consideração o uso de certas palavras, contagem de palavras e várias outras variáveis para determinar se o e-mail é spam. Um oráculo examina as diferentes saídas do classificador e determina qual previu os emails de spam com mais precisão.
O que diferencia o R-GRNN Oracle de outros oráculos é sua capacidade de pegar as saídas do classificador e classificá-las com base em sua precisão. Com base na classificação, classificadores recebem pesos e são combinados para produzir uma previsão superior a qualquer classificador por conta própria.
Pense neste processo como uma orquestra. Cada instrumento tem seus próprios pontos fortes, assim como diferentes classificadores, por isso é útil incluí-los todos. O condutor, como o R-GRNN Oracle, direciona os diferentes instrumentos para tocar mais alto ou mais baixo com base em como o instrumento faz o som da sinfonia final.
Neste ponto, o sistema seria chamado de Rede Neural de Regressão Geral (GRNN), que foi criado antes na Binghamton University. O verdadeiro ponto crucial do trabalho de Bani-Hani está na primeira carta, R, que significa recursão.
O R-GRNN Oracle pega a saída GRNN original, e usa todo esse sistema como uma entrada para outra previsão GRNN. Isso é combinado com o mais bem-sucedido dos classificadores originais.
Então, de volta à orquestra:a sinfonia original é gravada, e reproduzido novamente mais tarde. Desta vez, junto com a gravação, alguns instrumentos tocam novamente para afinar ainda mais os sons importantes da orquestra.
"Por causa da maneira como [o GRNN] funciona, Consegui criar o modelo recursivo, "Bani-Hani diz." O conceito de recursão não é amplamente usado no aprendizado de máquina, então decidi colocar um oráculo dentro de um oráculo. "
Mohammad Khasawneh, professor e chefe do departamento em ciência de sistemas e engenharia industrial, supervisionou a pesquisa de Bani-Hani. Ele diz que sistemas como o GRNN e R-GRNN são subutilizados e são vitais em eventos graves da vida.
"O tradicional GRNN Oracle tem recebido atenção limitada na literatura, pois poucos pesquisadores publicaram trabalhos sobre o algoritmo, "Khasawneh diz." Mas muitos problemas da vida real que aplicam modelos de aprendizado de máquina para automatizar a classificação de observações desconhecidas exigem previsões precisas. Tarefas como o diagnóstico de doenças exigem precisão para evitar problemas sérios que podem levar a problemas como processos judiciais ou até mortes. "
Bani-Hani diz que o R-GRNN Oracle produz previsões mais precisas do que qualquer classificador sozinho, bem como um GRNN por conta própria. O R-GRNN Oracle coletou milhares de amostras de e-mail, programado para fatorar 57 variáveis, e então produziu uma previsão de spam superior a todos os outros classificadores testados.
Bani-Hani também usou o R-GRNN para prever fraudes em aplicações de cartão de crédito, diagnóstico de diabetes e se um trabalhador vai pedir demissão com base em experiências anteriores no local de trabalho. Em cada caso, o R-GRNN saiu como o preditor mais preciso.
Ela planeja focar seu modelo em campos específicos, como negócios ou finanças, bem como empacotar o GRNN Oracle e o R-GRNN Oracle para que as empresas não tenham que criar o código inteiro desde o início.
A jornada de Bani-Hani rumo à pesquisa de aprendizado de máquina começou quase 6, 000 milhas de distância de Binghamton, na Jordânia. Depois de concluir o bacharelado em engenharia arquitetônica, ela ouviu sobre a Binghamton University através do corpo docente e líderes acadêmicos da Watson School, e das sugestões de apoio de seu pai. Ela inicialmente fez mestrado em engenharia industrial, mas ela logo encontrou uma nova paixão:mineração de dados e aprendizado de máquina.
"Conseguir um Ph.D. tem sido um sonho meu nos últimos 15 anos, "Bani-Hani diz." Atribuo isso principalmente a ter uma família com pós-graduação. Agradeço aos meus professores aqui na Binghamton University por me apresentarem aos tópicos que compõem minha pesquisa. "