• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • SPFCNN-Miner:Um novo classificador para lidar com dados desequilibrados de classe

    O fluxograma se MLF. Crédito:Zhao et al.

    Pesquisadores da Universidade de Chongqing, na China, desenvolveram recentemente um classificador de meta-aprendizado sensível ao custo que pode ser usado quando os dados de treinamento disponíveis são de alta dimensão ou limitados. Seu classificador, chamado SPFCNN-Miner, foi apresentado em um artigo publicado na Elsevier's Sistemas de Computação de Geração Futura .

    Embora os classificadores de aprendizado de máquina tenham se mostrado eficazes em uma variedade de tarefas, para alcançar os melhores resultados, eles geralmente requerem uma grande quantidade de dados de treinamento. Quando os dados são de alta dimensão, limitado ou desequilibrado, a maioria dos métodos de classificação não consegue atingir um desempenho satisfatório. Em seu estudo, a equipe de pesquisadores da Universidade de Chongqing decidiu entender melhor esses desafios relacionados aos dados e desenvolver um classificador que possa superá-los.

    "Usamos redes siamesas que são adequadas para o aprendizado de poucos instantes, onde poucos dados estão disponíveis para aprender dados de alta dimensão e limitados, e aplicar a ideia de combinar abordagens 'superficiais' e 'profundas' para projetar redes siamesas paralelas que podem extrair melhor características simples ou complexas de uma variedade de conjuntos de dados, "Linchang Zhao, um dos pesquisadores que realizou o estudo, disse TechXplore. "Os principais objetivos de nosso estudo foram resolver o problema de desequilíbrio de classe de dados e obter os melhores resultados de classificação possíveis em tais conjuntos de dados."

    Zhao e seus colegas desenvolveram uma rede neural totalmente conectada paralela siamesa (SPFCNN) e a aplicaram a problemas com distribuições de dados desequilibrados por classe. Para transformar seu SPFCNN insensível ao custo em uma abordagem sensível ao custo, eles usaram uma técnica chamada 'aprendizado sensível ao custo ".

    Primeiro, os pesquisadores dividiram o grupo majoritário em um conjunto de dados baseado em recursos transformados do produto interno. Isso garantiu que o tamanho de cada subgrupo em um grupo majoritário fosse próximo ao do grupo minoritário. Além disso, eles estruturaram alguns subconjuntos usando o grupo minoritário versus cada partição obtida.

    "Próximo, nós aplicamos n Mineradores SPFCNN para todos os subconjuntos, cada ponto de amostra x j pode ser expressa por suas medidas correspondentes (d j1 , …, d JN ), cada subclassificador pode ser transformado em uma medida da função de perda de contraste ajustando o SPFCNN, "Zhao explicou." Finalmente, n SPFCNN-mineiros foram integrados como um classificador final de acordo com os valores da função contrastiva. "

    A abordagem desenvolvida por Zhao e seus colegas tem inúmeras vantagens que o diferenciam de outros classificadores. Primeiro, sua Função Meta-Aluno (MLF) pode ser usada para particionar o grupo majoritário em um conjunto de dados com base nos recursos transformados do produto interno, o que resulta nos dados transformados contendo informações relacionadas às distâncias e ângulos entre os itens nos grupos minoritário e majoritário.

    "Os ângulos entre o grupo majoritário e o grupo minoritário podem ser vistos como a expressão de locais relacionados e, em seguida, representam a direção relacionada do grupo majoritário ao grupo minoritário, "Zhao explicou.

    Outra vantagem do novo classificador SPFCNN-Miner é que, como outras redes siamesas, ele pode extrair efetivamente os recursos de nível mais alto de uma pequena quantidade de amostras para o aprendizado de poucos instantes. Além disso, As redes siamesas paralelas são projetadas para aprender de forma adaptativa recursos simples ou complexos de diferentes dimensões de atributos de dados.

    Zhao e seus colegas avaliaram sua abordagem em uma série de testes computacionais, usando versões insensíveis e sensíveis ao custo do classificador SPFCNN. Eles descobriram que a abordagem sensível ao custo superou todos os classificadores com os quais a compararam.

    "Os resultados experimentais mostram que nosso SPFCNN é uma abordagem competitiva e é capaz de melhorar o desempenho de classificação de forma mais significativa em comparação com as abordagens comparadas, "Zhao disse." Descobrimos que o desempenho do nosso modelo não melhorou com o aumento do tamanho da amostra, mas foi muito afetado pela taxa de desequilíbrio. O desempenho obtido pela incorporação do aprendizado sensível ao custo em nosso modelo é mais estável. "

    O estudo realizado por Zhao e seus colegas apresenta um novo método que pode ser usado por pesquisadores para melhorar o desempenho dos classificadores quando os dados são limitados ou desequilibrados. Além disso, suas descobertas sugerem que equilibrar o número de amostras positivas e negativas pode ser mais eficaz do que gerar um número maior de amostras artificiais. Por exemplo, sua abordagem pode integrar diferentes custos de classificação incorreta à medida que conclui uma tarefa de classificação, o que o torna mais robusto do que outras técnicas usadas para resolver problemas relacionados a dados desequilibrados.

    "No futuro, planejamos usar técnicas como matrizes de passeio aleatório, compartilhamento de peso circulante e codificação Huffman para comprimir nosso modelo, e a tecnologia fracamente conectada ou método de poda-quantização em paralelo será usada para tornar mais leve o modelo SPFCNN proposto, "Zhao disse.

    © 2019 Science X Network




    © Ciência https://pt.scienceaq.com