A estatística da Rice University, Genevera Allen, discutirá a pesquisa para melhorar a precisão e a reprodutibilidade das descobertas científicas feitas por aprendizado de máquina em uma coletiva de imprensa e na sessão geral na Reunião Anual da AAAS de 2019. Crédito:Tommy LaVergne / Rice University
A estatística da Universidade Rice, Genevera Allen, diz que os cientistas devem continuar questionando a precisão e reprodutibilidade das descobertas científicas feitas por técnicas de aprendizado de máquina até que os pesquisadores desenvolvam novos sistemas computacionais que possam se criticar.
Allen, professor associado de estatística, ciência da computação e engenharia elétrica e da computação na Rice e de pediatria-neurologia na Baylor College of Medicine, abordará o assunto em uma coletiva de imprensa e uma sessão geral hoje na Reunião Anual de 2019 da Associação Americana para o Avanço da Ciência (AAAS).
"A questão é, 'Podemos realmente confiar nas descobertas que estão sendo feitas atualmente usando técnicas de aprendizado de máquina aplicadas a grandes conjuntos de dados?' ", Disse Allen." A resposta em muitas situações é provavelmente:'Não sem verificar, 'mas o trabalho está em andamento em sistemas de aprendizado de máquina de próxima geração que avaliarão a incerteza e reprodutibilidade de suas previsões. "
O aprendizado de máquina (ML) é um ramo da estatística e da ciência da computação que se preocupa com a construção de sistemas computacionais que aprendem com os dados, em vez de seguir instruções explícitas. Allen disse que muita atenção no campo de ML tem se concentrado no desenvolvimento de modelos preditivos que permitem que o ML faça previsões sobre dados futuros com base em sua compreensão dos dados que estudou.
"Muitas dessas técnicas são projetadas para sempre fazer uma previsão, "ela disse." Eles nunca voltam com 'eu não sei, 'ou' Eu não descobri nada, 'porque eles não foram feitos para isso. "
Ela disse que descobertas baseadas em dados não corroboradas de estudos de ML recentemente publicados sobre dados de câncer são um bom exemplo.
"Na medicina de precisão, é importante encontrar grupos de pacientes com perfis genomicamente semelhantes para que você possa desenvolver terapias medicamentosas que sejam direcionadas ao genoma específico de sua doença, "Allen disse." As pessoas aplicaram o aprendizado de máquina a dados genômicos de coortes clínicas para encontrar grupos, ou clusters, de pacientes com perfis genômicos semelhantes.
"Mas há casos em que as descobertas não são reproduzíveis; os clusters descobertos em um estudo são completamente diferentes dos clusters encontrados em outro, "ela disse." Por quê? Porque a maioria das técnicas de aprendizado de máquina hoje sempre dizem, 'Eu encontrei um grupo.' As vezes, seria muito mais útil se eles dissessem, 'Acho que alguns deles estão realmente agrupados, mas estou incerto sobre esses outros. '"
Allen discutirá a incerteza e a reprodutibilidade das técnicas de ML para descobertas baseadas em dados em uma coletiva de imprensa às 10h hoje, e ela discutirá estudos de caso e pesquisas destinadas a abordar a incerteza e reprodutibilidade nas 15h30. sessão geral, "Aprendizado de máquina e estatística:aplicativos em genômica e visão computacional." Ambas as sessões são no Marriott Wardman Park Hotel.