Crédito CC0:domínio público
Os cientistas da computação da Carnegie Mellon University adotaram um método de aprendizado profundo que revolucionou o reconhecimento de rostos e outras aplicações baseadas em imagens nos últimos anos e redirecionou seu poder de explorar a relação entre os genes.
O truque, eles dizem, é transformar grandes quantidades de dados de expressão gênica em algo mais parecido com uma imagem. Redes neurais convolucionais (CNNs), que são adeptos da análise de imagens visuais, pode então inferir quais genes estão interagindo uns com os outros. Os CNNs superam os métodos existentes nesta tarefa.
O relatório dos pesquisadores sobre como as CNNs podem ajudar a identificar genes relacionados a doenças e vias de desenvolvimento e genéticas que podem ser alvos de drogas está sendo publicado hoje no Proceedings of the National Academy of Science . Mas Ziv Bar-Joseph, professor de biologia computacional e aprendizado de máquina, disse que as aplicações para o novo método, chamado CNNC, poderia ir muito além das interações de genes.
O novo insight descrito no artigo sugere que o CNNC poderia ser implantado de forma semelhante para investigar a causalidade em uma ampla variedade de fenômenos, incluindo dados financeiros e redes sociais, disse Bar-Joseph, que foi coautor do artigo com Ye Yuan, um pesquisador de pós-doutorado no Departamento de Aprendizado de Máquina da CMU.
"CNNs, que foram desenvolvidos há uma década, são revolucionários, "Bar-Joseph disse." Ainda estou maravilhado com o Google Fotos, que os usa para reconhecimento facial, "ele acrescentou enquanto percorria as fotos em seu smartphone, mostrando como o aplicativo pode identificar seu filho em diferentes idades, ou identificar seu pai com base em uma imagem do lado direito traseiro de sua cabeça. "Às vezes, consideramos essa tecnologia garantida porque a usamos o tempo todo. Mas é incrivelmente poderosa e não se restringe a imagens. É tudo uma questão de como você representa seus dados."
Nesse caso, ele e Yuan estavam examinando as relações genéticas. Cerca de 20, 000 genes em humanos trabalham em conjunto, portanto, é necessário saber como os genes funcionam juntos em complexos ou redes para entender o desenvolvimento humano ou as doenças.
Uma maneira de inferir essas relações é observar a expressão gênica - que representa os níveis de atividade dos genes nas células. Geralmente, se o gene A está ativo ao mesmo tempo que o gene B está ativo, é uma pista de que os dois estão interagindo, Yuan disse. Ainda, é possível que seja uma coincidência ou que ambos sejam ativados por um terceiro gene C. Vários métodos anteriores foram desenvolvidos para descobrir essas relações.
Para empregar CNNs para ajudar a analisar as relações genéticas, Yuan e Bar-Joseph usaram dados de expressão de uma única célula - experimentos que podem determinar o nível de cada gene em uma única célula. Os resultados de centenas de milhares dessas análises de uma única célula foram então organizados na forma de uma matriz ou histograma de modo que cada célula da matriz representasse um nível diferente de coexpressão para um par de genes.
Apresentar os dados desta forma adicionou um aspecto espacial que tornou os dados mais semelhantes a imagens e, portanto, mais acessível para CNNs. Ao usar dados de genes cujas interações já foram estabelecidas, os pesquisadores foram capazes de treinar as CNNs para reconhecer quais genes estavam interagindo e quais não eram baseados nos padrões visuais na matriz de dados, Yuan disse.
"É muito, muito difícil distinguir entre causalidade e correlação, "Yuan disse, mas o método CNNC provou ser estatisticamente mais preciso do que os métodos existentes. Ele e Bar-Joseph prevêem que o CNNC será uma das várias técnicas que os pesquisadores eventualmente empregarão na análise de grandes conjuntos de dados.
"Este é um método muito geral que pode ser aplicado a uma série de análises, "Bar-Joseph disse. A principal limitação são os dados - quanto mais dados houver, melhor funcionam as CNNs. A biologia celular é adequada para usar CNNC, já que um experimento típico pode envolver dezenas de milhares de células e gerar uma grande quantidade de dados.