• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • A matemática inovadora pode levar o aprendizado de máquina para o próximo nível

    A nova abordagem permite que a inteligência artificial aprenda a reconhecer imagens transformadas com muito mais rapidez. Crédito:Diogo Matias

    Uma equipe de matemáticos italianos, incluindo um neurocientista do Centro Champalimaud para o Desconhecido (CCU), em Lisboa, Portugal, mostrou que as máquinas de visão artificial podem aprender a reconhecer imagens complexas mais rapidamente usando uma teoria matemática desenvolvida há 25 anos por um dos co-autores deste novo estudo. Seus resultados foram publicados na revista Nature Machine Intelligence .

    Nas décadas recentes, o desempenho da visão de máquina melhorou muito. Os sistemas artificiais agora podem aprender a reconhecer virtualmente qualquer rosto humano ou identificar qualquer peixe individual se movendo em um tanque.

    Essas máquinas são, na verdade, modelos eletrônicos de redes de neurônios biológicos, e seu objetivo é simular o funcionamento do cérebro, que se destaca nessas tarefas visuais sem nenhum esforço consciente de nossa parte.

    Mas como essas redes neurais artificiais realmente aprendem? No caso de reconhecimento facial, por exemplo, eles fazem isso adquirindo experiência sobre como são os rostos humanos na forma de uma série de retratos. Mais especificamente, depois de ser digitalizado em uma matriz de valores de pixel, cada imagem é "comprimida" dentro da rede neural, que então extrai o geral, características significativas do conjunto de faces de amostra (como os olhos, boca, nariz, etc).

    Esse aprendizado profundo permite que a máquina divulgue outro conjunto de valores, que, por sua vez, permitirá que ele identifique um rosto que nunca viu antes em um banco de dados de rostos (muito parecido com um banco de dados de impressão digital), e, portanto, prever a quem esse rosto pertence com grande precisão.

    A história de Clever Hans

    Mas antes que a rede neural possa funcionar bem, normalmente é necessário apresentá-lo com milhares de faces (ou seja, matrizes de números). Além disso, embora essas máquinas tenham cada vez mais sucesso no reconhecimento de padrões, o fato é que ninguém sabe realmente o que se passa dentro deles enquanto aprendem as tarefas. Eles são basicamente caixas pretas.

    O que isso significa é que não é possível determinar quais ou quantos recursos a máquina está realmente extraindo dos dados iniciais - e nem mesmo quantos desses recursos são realmente significativos para o reconhecimento de rosto.

    "Para ilustrar isso, considere o paradigma do cavalo sábio, "diz o primeiro autor do estudo Mattia Bergomi, que trabalha no Laboratório de Neurociências de Sistemas da CCU. A história, desde os primeiros anos do século 20, diz respeito a um cavalo na Alemanha chamado Clever Hans, que seu mestre afirmava ter aprendido a fazer aritmética e anunciar o resultado das adições, subtrações, etc. batendo um de seus cascos dianteiros no chão o número certo de vezes. Muitas pessoas estavam convencidas de que ele sabia contar; o cavalo foi até mesmo relatado pelo New York Times . Mas então, em 1907, um psicólogo alemão mostrou que o cavalo estava, na verdade, captar sinais inconscientes na linguagem corporal de seu mestre que diziam a ele quando parar de bater.

    "É a mesma coisa com o aprendizado de máquina; não há controle sobre como funciona, ou o que aprendeu durante o treinamento, "Bergomi explica. A máquina, não tendo conhecimento a priori de rostos, apenas de alguma forma faz suas coisas - e funciona.

    Isso levou os pesquisadores a perguntar se poderia haver uma maneira de injetar algum conhecimento do mundo real sobre rostos ou outros objetos na rede neural antes do treinamento, a fim de fazer com que ele explorasse um espaço mais limitado de recursos possíveis em vez de considerá-los todos— incluindo aqueles que são impossíveis no mundo real. "Queríamos controlar o espaço de recursos aprendidos, "Diz Bergomi." É semelhante à diferença entre um jogador de xadrez medíocre e um especialista:o primeiro vê todos os movimentos possíveis, enquanto o último só vê os bons, " ele adiciona.

    Outra forma de colocar isso, ele diz, é dizendo que "nosso estudo aborda a seguinte questão simples:quando treinamos uma rede neural profunda para distinguir sinais de trânsito, como podemos dizer à rede que seu trabalho será muito mais fácil se ela apenas tiver que se preocupar com formas geométricas simples, como círculos e triângulos? "

    Os cientistas raciocinaram que essa abordagem reduziria substancialmente o tempo de treinamento - e o mais importante, dê-lhes uma dica sobre o que a máquina pode estar fazendo para obter seus resultados. "Permitir que os humanos conduzam o processo de aprendizagem das máquinas de aprendizagem é fundamental para avançar em direção a uma inteligência artificial mais inteligível e reduzir o custo vertiginoso de tempo e recursos que as redes neurais atuais exigem para serem treinadas, " ele diz.

    O que há em uma forma?

    Uma teoria matemática abstrata chamada análise de dados topológicos (TDA) foi a chave. Os primeiros passos no desenvolvimento do TDA foram dados em 1992 pelo matemático italiano Patrizio Frosini, co-autor do novo estudo, atualmente na Universidade de Bolonha. "A topologia é uma das formas mais puras de matemática, "diz Bergomi." E até recentemente, as pessoas pensaram que a topologia não seria aplicável a nada concreto por muito tempo, até que o TDA se tornou conhecido nos últimos anos. "

    A topologia é uma espécie de geometria estendida que, em vez de medir linhas e ângulos em formas rígidas (como triângulos, praças, cones, etc.), procura classificar objetos altamente complexos de acordo com sua forma. Para um topologista, por exemplo, um donut e uma caneca são o mesmo objeto:um pode ser deformado no outro por esticamento ou compressão.

    Agora, a coisa é, as redes neurais atuais não são boas em topologia. Por exemplo, eles não reconhecem objetos girados. Para eles, o mesmo objeto parecerá completamente diferente toda vez que for girado. É exatamente por isso que a única solução é fazer com que essas redes "memorizem" cada configuração separadamente - aos milhares. E é exatamente o que os autores planejavam evitar usando o TDA.

    Pense no TDA como uma ferramenta matemática para encontrar estruturas internas significativas (recursos topológicos), em qualquer objeto complexo que pode ser representado como um grande conjunto de números. Isso é feito olhando os dados por meio de certas lentes "bem escolhidas, "ou filtros. Os dados em si podem ser sobre rostos, transações financeiras ou taxas de sobrevivência ao câncer. O TDA torna possível ensinar uma rede neural a reconhecer faces sem ter que apresentá-la com cada uma das diferentes orientações que as faces podem assumir no espaço. A máquina agora reconhecerá todos os rostos como sendo um rosto, mesmo em diferentes posições giradas.

    Em seu estudo, os cientistas testaram os benefícios de combinar aprendizado de máquina e TDA ensinando uma rede neural a reconhecer dígitos escritos à mão. Os resultados falam por si.

    Como essas redes são topologistas ruins e a escrita à mão pode ser muito ambígua, dois dígitos manuscritos diferentes podem ser indistinguíveis para as máquinas atuais - e, inversamente, eles podem identificar duas instâncias do mesmo dígito escrito à mão como diferentes. A tarefa requer apresentar a rede, que não sabe nada sobre dígitos no mundo real, com milhares de imagens de cada um dos 10 dígitos escritos com todos os tipos de inclinações, caligrafias, etc.

    Para injetar conhecimento sobre dígitos, a equipe construiu um conjunto de recursos a priori que considerou significativos - em outras palavras, um conjunto de "lentes" através das quais a rede veria os dígitos - e forçava a máquina a escolher entre essas lentes para ver as imagens. O número de imagens (ou seja, o tempo) necessário para a rede neural aprimorada por TDA aprender a distinguir cinco de sete, embora mal escrito, ao mesmo tempo em que mantém seu poder preditivo, caiu para menos de 50.

    "O que descrevemos matematicamente em nosso estudo é como impor certas simetrias, e isso fornece uma estratégia para construir agentes de aprendizado de máquina que são capazes de aprender características importantes de alguns exemplos, aproveitando o conhecimento injetado como restrições, "diz Bergomi.

    Isso significa que o funcionamento interno das máquinas de aprendizagem que imitam o cérebro se tornará mais transparente no futuro, permitindo novos insights sobre o funcionamento interno do próprio cérebro? Em todo o caso, este é um dos objetivos de Bergomi. “A inteligibilidade da inteligência artificial é necessária para sua interação e integração com a inteligência biológica, "ele diz. Ele está trabalhando atualmente, em colaboração com seu colega Pietro Vertechi, no desenvolvimento de um novo tipo de arquitetura de rede neural que permitirá aos humanos injetar conhecimento de alto nível nessas redes para controlar e acelerar seu treinamento.


    © Ciência https://pt.scienceaq.com