A IA servirá para desenvolver um sistema de controle de rede que não apenas detecta e reage aos problemas, mas também pode prever e evitá-los. Crédito CC0:domínio público
Os pesquisadores do MIT desenvolveram um sistema criptográfico que pode ajudar as redes neurais a identificar candidatos a medicamentos promissores em enormes conjuntos de dados farmacológicos, enquanto mantém os dados privados. A computação segura feita em uma escala tão grande poderia permitir um amplo agrupamento de dados farmacológicos sensíveis para a descoberta de medicamentos preditivos.
Conjuntos de dados de interações medicamentosas (DTI), que mostram se os compostos candidatos atuam nas proteínas alvo, são essenciais para ajudar os pesquisadores a desenvolver novos medicamentos. Os modelos podem ser treinados para processar conjuntos de dados de DTIs conhecidos e, em seguida, usando essa informação, encontrar novos candidatos a medicamentos.
Nos últimos anos, firmas farmacêuticas, universidades, e outras entidades tornaram-se abertas para reunir dados farmacológicos em bancos de dados maiores que podem melhorar muito o treinamento desses modelos. Devido a questões de propriedade intelectual e outras questões de privacidade, Contudo, esses conjuntos de dados permanecem limitados em escopo. Os métodos de criptografia para proteger os dados são tão intensivos em computação que não se adaptam bem a conjuntos de dados além, dizer, dezenas de milhares de DTIs, que é relativamente pequeno.
Em um artigo publicado em Ciência , pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) descrevem uma rede neural treinada e testada com segurança em um conjunto de dados de mais de um milhão de DTIs. A rede aproveita ferramentas criptográficas modernas e técnicas de otimização para manter os dados de entrada privados, enquanto corre com rapidez e eficiência em grande escala.
Os experimentos da equipe mostram que o desempenho da rede é mais rápido e preciso do que as abordagens existentes; pode processar enormes conjuntos de dados em dias, enquanto outras estruturas criptográficas levariam meses. Além disso, a rede identificou várias novas interações, incluindo um entre o medicamento para leucemia imatinibe e uma enzima ErbB4 - mutações das quais foram associadas ao câncer - que poderia ter significado clínico.
"As pessoas percebem que precisam reunir seus dados para acelerar muito o processo de descoberta de medicamentos e nos permitir, juntos, para fazer avanços científicos na solução de doenças humanas importantes, como câncer ou diabetes. Mas eles não têm boas maneiras de fazer isso, "diz o autor correspondente Bonnie Berger, o professor de matemática Simons e pesquisador principal do CSAIL. “Com este trabalho, nós fornecemos uma maneira para que essas entidades agrupem e analisem seus dados de maneira eficiente em uma escala muito grande. "
Juntando-se a Berger no papel estão os co-autores Brian Hie e Hyunghoon Cho, ambos alunos de pós-graduação em engenharia elétrica e ciência da computação e pesquisadores do grupo de Computação e Biologia do CSAIL.
Dados de "compartilhamento secreto"
O novo artigo baseia-se no trabalho anterior dos pesquisadores na proteção da confidencialidade do paciente em estudos genômicos, que encontram ligações entre variantes genéticas particulares e a incidência de doenças. Esses dados genômicos podem revelar informações pessoais, portanto, os pacientes podem relutar em se inscrever nos estudos. Nesse trabalho, Berger, Cho, e um ex-Ph.D. da Stanford University aluno desenvolveu um protocolo baseado em uma estrutura de criptografia chamada "compartilhamento secreto, "que analisa de forma segura e eficiente conjuntos de dados de um milhão de genomas. Em contraste, as propostas existentes poderiam lidar com apenas alguns milhares de genomas.
O compartilhamento de segredos é usado em computação multipartidária, onde os dados confidenciais são divididos em "compartilhamentos" separados entre vários servidores. Ao longo da computação, cada parte sempre terá apenas sua parcela dos dados, que parece totalmente aleatório. Coletivamente, Contudo, os servidores ainda podem se comunicar e realizar operações úteis nos dados privados subjacentes. No final do cálculo, quando um resultado é necessário, as partes combinam suas ações para revelar o resultado.
"Usamos nosso trabalho anterior como base para aplicar o compartilhamento de segredos ao problema da colaboração farmacológica, mas não funcionou logo de cara, "Diz Berger.
Uma inovação importante foi reduzir a computação necessária em treinamento e teste. Os modelos preditivos de descoberta de drogas existentes representam as estruturas químicas e proteicas dos DTIs como gráficos ou matrizes. Essas abordagens, Contudo, escala quadraticamente, ou ao quadrado, com o número de DTIs no conjunto de dados. Basicamente, o processamento dessas representações torna-se extremamente intensivo em termos de computação à medida que o tamanho do conjunto de dados aumenta. "Embora isso possa ser bom para trabalhar com os dados brutos, se você tentar isso em computação segura, é inviável, "Hie diz.
Os pesquisadores, em vez disso, treinaram uma rede neural que se baseia em cálculos lineares, que escalam com muito mais eficiência com os dados. "Precisávamos absolutamente de escalabilidade, porque estamos tentando fornecer uma maneira de agrupar dados [em] conjuntos de dados muito maiores, "Cho diz.
Os pesquisadores treinaram uma rede neural no conjunto de dados STITCH, que tem 1,5 milhões de DTIs, tornando-o o maior conjunto de dados disponível publicamente de seu tipo. Em treinamento, a rede codifica cada composto de droga e estrutura de proteína como uma representação vetorial simples. Isso essencialmente condensa as estruturas complicadas como 1s e 0s que um computador pode processar facilmente. A partir desses vetores, a rede então aprende os padrões de interação e não interação. Alimentou novos pares de compostos e estruturas de proteínas, a rede então prevê se eles interagirão.
A rede também possui uma arquitetura otimizada para eficiência e segurança. Cada camada de uma rede neural requer alguma função de ativação que determina como enviar as informações para a próxima camada. Em sua rede, os pesquisadores usaram uma função de ativação eficiente chamada unidade linear retificada (ReLU). Esta função requer apenas um, comparação numérica segura de uma interação para determinar se deve enviar (1) ou não enviar (0) os dados para a próxima camada, ao mesmo tempo que nunca revela nada sobre os dados reais. Esta operação pode ser mais eficiente em computação segura em comparação com funções mais complexas, portanto, reduz a carga computacional ao mesmo tempo que garante a privacidade dos dados.
"A razão pela qual isso é importante é que queremos fazer isso dentro da estrutura de compartilhamento de segredos ... e não queremos aumentar a sobrecarga computacional, "Diz Berger. No final, "nenhum parâmetro do modelo é revelado e todos os dados de entrada - os medicamentos, alvos, e interações - são mantidas em sigilo. "
Encontrando interações
Os pesquisadores compararam sua rede a vários sistemas de ponta, modelos de texto simples (não criptografados) em uma parte de DTIs conhecidos do DrugBank, um conjunto de dados popular contendo cerca de 2, 000 DTIs. Além de manter os dados privados, a rede dos pesquisadores superou todos os modelos em precisão de previsão. Apenas dois modelos de linha de base podem escalar razoavelmente para o conjunto de dados STITCH, e o modelo dos pesquisadores alcançou quase o dobro da precisão desses modelos.
Os pesquisadores também testaram pares droga-alvo sem interações listadas no STITCH, e encontraram várias interações medicamentosas clinicamente estabelecidas que não estavam listadas no banco de dados, mas deveriam estar. No papel, os pesquisadores listam as previsões mais fortes, incluindo:droloxifeno e um receptor de estrogênio, que atingiu a fase III dos ensaios clínicos como tratamento para o câncer de mama; e seocalcitol e um receptor de vitamina D para tratar outros cânceres. Cho e Hie validaram independentemente as novas interações de maior pontuação por meio de organizações de pesquisa contratadas.
Próximo, os pesquisadores estão trabalhando com parceiros para estabelecer seu pipeline colaborativo em um ambiente do mundo real. "Estamos interessados em criar um ambiente para computação segura, para que possamos executar nosso protocolo seguro com dados reais, "Cho diz.
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.