Crédito CC0:domínio público
A tecnologia está avançando a passos largos, e com isso, as informações com as quais a sociedade opera diariamente. No entanto, o volume de dados precisa ser organizado, analisados e correlacionados para prever certos padrões. Esta é uma das principais funções do que se conhece como Big Data.
Os pesquisadores do grupo de pesquisa KIDS do Departamento de Ciência da Computação e Análise Numérica da Universidade de Córdoba puderam melhorar os modelos que prevêem várias variáveis simultaneamente com base no mesmo conjunto de variáveis de entrada, reduzindo assim o tamanho dos dados necessários para uma previsão precisa. Um exemplo disso é um método que prevê diversos parâmetros relacionados à qualidade do solo a partir de um conjunto de variáveis como safras plantadas, preparo do solo e uso de agrotóxicos.
"Quando você está lidando com um grande volume de dados, existem duas soluções. Você quer aumentar o desempenho do computador, que é muito caro, ou você reduz a quantidade de informações necessárias para que o processo seja feito corretamente, "diz o pesquisador Sebastian Ventura, um dos autores do artigo de pesquisa.
Ao construir um modelo preditivo, resultados confiáveis dependem de duas questões:o número de variáveis que entram em jogo e o número de exemplos inseridos no sistema. Com a ideia de que menos é mais, o estudo foi capaz de reduzir o número de exemplos, eliminando aqueles que são redundantes ou "ruidosos, "e que, portanto, não contribuem com nenhuma informação útil para a criação de um melhor modelo preditivo.
Como Oscar Reyes, o principal autor da pesquisa, destaca "desenvolvemos uma técnica que pode dizer qual conjunto de exemplos você precisa para que a previsão não seja apenas confiável, mas possa ser ainda melhor." Em alguns bancos de dados, dos 18 que foram analisados, eles foram capazes de reduzir a quantidade de informações em 80 por cento sem afetar o desempenho preditivo, o que significa que menos da metade dos dados originais foram usados. Tudo isso, diz Reyes, "significa economizar energia e dinheiro na construção de uma maquete, pois menos capacidade de computação é necessária. "Além disso, também significa economia de tempo, o que é interessante para aplicativos que funcionam em tempo real, já que "não faz sentido um modelo levar meia hora para ser executado se você precisar de uma previsão a cada cinco minutos".
Sistemas que prevêem várias variáveis relacionadas simultaneamente, conhecidos como modelos de regressão multi-output, estão ganhando importância cada vez mais notável devido à ampla gama de aplicações que poderiam ser analisadas sob este paradigma de aprendizagem automática, como aqueles relacionados à saúde, qualidade da água, sistemas de refrigeração de edifícios e estudos ambientais.