Redes neurais artificiais podem aumentar a curadoria de coleções de história natural
p Pesquisadores do Smithsonian classificando folhas digitalizadas de herbário que foram manchadas com mercúrio para construir um conjunto de dados de treinamento. Crédito:Paul B. Frandsen, Smithsonian
p Milhões, se não bilhões, de espécimes residem em coleções de história natural do mundo, mas a maioria deles não foi estudada cuidadosamente, ou mesmo olhado, em décadas. Embora contenha dados críticos para muitos empreendimentos científicos, a maioria dos objetos está calmamente sentada em seus próprios pequenos armários de curiosidade. p Assim, a digitalização em massa de coleções de história natural se tornou uma das principais metas dos museus de todo o mundo. Tendo reunido vários biólogos, curadores, voluntários e cientistas cidadãos, tais iniciativas já geraram grandes conjuntos de dados dessas coleções e forneceram uma visão sem precedentes.
p Agora, um estudo, publicado recentemente no acesso aberto
Biodiversity Data Journal , sugere que os últimos avanços em digitalização e aprendizado de máquina podem, juntos, ajudar os curadores de museus em seus esforços para cuidar e aprender com esse incrível recurso global.
p Uma equipe de pesquisadores do Departamento de Botânica Smithsonian, Data Science Lab, e o Digitization Program Office recentemente colaborou com a NVIDIA para realizar um projeto piloto usando abordagens de aprendizado profundo para escavar espécimes de herbário digitalizados.
p O estudo deles está entre os primeiros a descrever o uso de métodos de aprendizagem profunda para aprimorar nossa compreensão de amostras de coleções digitalizadas. É também o primeiro a demonstrar que uma rede neural convolucional profunda - um sistema de computação modelado a partir da atividade do neurônio em cérebros de animais que pode basicamente aprender por conta própria - pode diferenciar efetivamente entre plantas semelhantes com uma incrível precisão de quase 100%.
p O Herbário Nacional dos EUA no Museu Nacional de História Natural do Smithsonian em Washington, D.C. Crédito:Chip Clark, Smithsonian
p No papel, os cientistas descrevem duas redes neurais diferentes que eles treinaram para realizar tarefas na parte digitalizada (atualmente 1,2 milhão de espécimes) do herbário nacional dos Estados Unidos.
p A equipe primeiro treinou uma rede para reconhecer automaticamente as folhas de herbário que foram manchadas com cristais de mercúrio, uma vez que o mercúrio era comumente usado por alguns dos primeiros colecionadores para proteger as coleções de plantas dos danos dos insetos. A segunda rede foi treinada para discriminar entre duas famílias de plantas que compartilham uma aparência superficial surpreendentemente semelhante.
p As redes neurais treinadas executaram com 90% e 96% de precisão, respectivamente (ou 94% e 99% se as amostras mais desafiadoras foram descartadas), confirmando que a aprendizagem profunda é uma tecnologia útil e importante para a análise futura de coleções digitalizadas de museus.
p Coleções digitalizadas combinadas com aprendizagem profunda nos ajudarão a automatizar uma tarefa humana de identificar um número desconhecido de folhas de espécimes manchadas em uma coleção de mais de 5 milhões. Veja http://collections.si.edu. Crédito:Smithsonian Institution
p "Os resultados podem ser aproveitados para melhorar a curadoria e desbloquear novos caminhos de pesquisa, "concluem os cientistas.
p "Este trabalho de pesquisa é uma prova de conceito maravilhosa. Agora sabemos que podemos aplicar o aprendizado de máquina a espécimes de história natural digitalizados para resolver problemas de curadoria e identificação. No futuro, usaremos essas ferramentas combinadas com grandes conjuntos de dados compartilhados para testar hipóteses fundamentais sobre a evolução e distribuição de plantas e animais, "diz o Dr. Laurence J. Dorr, Presidente do Departamento de Botânica do Smithsonian e co-autor do estudo.