• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • A teoria da informação traz surpresas para o aprendizado de máquina

    Crédito CC0:domínio público

    Uma nova pesquisa SFI desafia uma concepção popular de como os algoritmos de aprendizado de máquina "pensam" sobre certas tarefas.

    A concepção é mais ou menos assim:por causa de sua capacidade de descartar informações inúteis, uma classe de algoritmos de aprendizado de máquina chamados de redes neurais profundas pode aprender conceitos gerais a partir de dados brutos - como identificar gatos geralmente depois de encontrar dezenas de milhares de imagens de gatos diferentes em diferentes situações. Diz-se que essa capacidade aparentemente humana surge como um subproduto da arquitetura em camadas das redes. As camadas iniciais codificam o rótulo "gato" junto com todas as informações brutas necessárias para a previsão. As camadas subsequentes, em seguida, compactam as informações, como se fosse um gargalo. Dados irrelevantes, como a cor da pelagem do gato, ou o pires de leite ao lado dele, é esquecido, deixando apenas características gerais para trás. A teoria da informação fornece limites sobre o quão ótima é cada camada, em termos de quão bem ele pode equilibrar as demandas concorrentes de compressão e previsão.

    "Muitas vezes, quando você tem uma rede neural e ela aprende a mapear rostos em nomes, ou imagens em dígitos numéricos, ou coisas incríveis como texto em francês para texto em inglês, tem muitas camadas intermediárias ocultas pelas quais as informações fluem, "diz Artemy Kolchinsky, um SFI Postdoctoral Fellow e o autor principal do estudo. "Portanto, há uma ideia de longa data de que, à medida que as entradas brutas são transformadas nessas representações intermediárias, o sistema está trocando previsão por compressão, e construir conceitos de nível superior por meio desse gargalo de informações. "

    Contudo, Kolchinsky e seus colaboradores Brendan Tracey (SFI, MIT) e Steven Van Kuyk (University of Wellington) descobriram uma fraqueza surpreendente quando aplicaram esta explicação a problemas comuns de classificação, onde cada entrada tem uma saída correta (por exemplo, em que cada imagem pode ser de um gato ou de um cão). Em tais casos, eles descobriram que os classificadores com muitas camadas geralmente não abrem mão de alguma previsão de compressão aprimorada. Eles também descobriram que existem muitas representações "triviais" das entradas que são, do ponto de vista da teoria da informação, ótimo em termos de seu equilíbrio entre previsão e compressão.

    "Descobrimos que essa medida de gargalo de informações não vê a compressão da mesma forma que você ou eu veríamos. Dada a escolha, fica tão feliz em juntar 'taças de martini' com 'Labradores', como é juntá-los com 'taças de champanhe, "Tracey explica." Isso significa que devemos continuar procurando medidas de compressão que melhor correspondam às nossas noções de compressão. "

    Embora a ideia de compactar entradas ainda possa desempenhar um papel útil no aprendizado de máquina, esta pesquisa sugere que não é suficiente para avaliar as representações internas usadas por diferentes algoritmos de aprendizado de máquina.

    Ao mesmo tempo, Kolchinsky diz que o conceito de trade-off entre compressão e previsão ainda será válido para tarefas menos determinísticas, como prever o tempo a partir de um conjunto de dados barulhento. "Não estamos dizendo que o gargalo de informações é inútil para o aprendizado [de máquina] supervisionado, "Kolchinsky enfatiza." O que estamos mostrando aqui é que ele se comporta de forma contra-intuitiva em muitos problemas comuns de aprendizado de máquina, e isso é algo que as pessoas da comunidade de aprendizado de máquina devem estar cientes. "


    © Ciência https://pt.scienceaq.com