Tirando o pensamento da máquina da caixa preta

Crédito CC0:domínio público

Os aplicativos de software fornecem às pessoas muitos tipos de decisões automatizadas, como identificar qual é o risco de crédito de um indivíduo, informando um recrutador de qual candidato a emprego contratar, ou determinar se alguém é uma ameaça ao público. Nos últimos anos, as manchetes alertam para um futuro em que as máquinas operam no fundo da sociedade, decidir o curso de vidas humanas usando uma lógica indigna de confiança.

Parte desse medo deriva da maneira obscura como muitos modelos de aprendizado de máquina operam. Conhecidos como modelos de caixa preta, eles são definidos como sistemas nos quais a jornada da entrada à saída é quase impossível até mesmo para seus desenvolvedores compreenderem.

"À medida que o aprendizado de máquina se torna onipresente e é usado para aplicativos com consequências mais sérias, é necessário que as pessoas entendam como ele está fazendo previsões, para que possam confiar nele quando estiver fazendo mais do que veicular um anúncio, "diz Jonathan Su, membro da equipe técnica do Grupo de Apoio à Decisão e Informática do Laboratório Lincoln do MIT.

Atualmente, os pesquisadores usam técnicas post hoc ou um modelo interpretável, como uma árvore de decisão, para explicar como um modelo de caixa preta chega à sua conclusão. Com técnicas post hoc, os pesquisadores observam as entradas e saídas de um algoritmo e, em seguida, tentam construir uma explicação aproximada para o que aconteceu dentro da caixa preta. O problema com este método é que os pesquisadores só podem adivinhar o funcionamento interno, e as explicações muitas vezes podem estar erradas. Árvores de decisão, quais escolhas de mapas e suas consequências potenciais em uma construção semelhante a uma árvore, funcionam bem para dados categóricos cujos recursos são significativos, mas essas árvores não são interpretáveis em domínios importantes, como visão de computador e outros problemas de dados complexos.

Su lidera uma equipe no laboratório que está colaborando com a Professora Cynthia Rudin na Duke University, junto com os alunos do duque Chaofan Chen, Oscar Li, e Alina Barnett, a métodos de pesquisa para substituir modelos de caixa preta por métodos de previsão que são mais transparentes. Seu projeto, chamado Adaptable Interpretable Machine Learning (AIM), concentra-se em duas abordagens:redes neurais interpretáveis, bem como listas de regras bayesianas adaptáveis e interpretáveis (BRLs).

Uma rede neural é um sistema de computação composto de muitos elementos de processamento interconectados. Essas redes são normalmente usadas para análise de imagens e reconhecimento de objetos. Por exemplo, um algoritmo pode ser ensinado a reconhecer se uma fotografia inclui um cachorro, primeiro vendo fotos de cães. Os pesquisadores dizem que o problema com essas redes neurais é que suas funções são não lineares e recursivas, além de complicado e confuso para os humanos, e o resultado final é que é difícil apontar o que exatamente a rede definiu como "dogness" nas fotos e o que a levou a essa conclusão.

Para resolver este problema, a equipe está desenvolvendo o que chama de "redes neurais de protótipo". Elas são diferentes das redes neurais tradicionais porque codificam naturalmente explicações para cada uma de suas previsões criando protótipos, que são partes particularmente representativas de uma imagem de entrada. Essas redes fazem suas previsões com base na semelhança de partes da imagem de entrada com cada protótipo.

Como um exemplo, se uma rede tem a tarefa de identificar se uma imagem é um cachorro, gato, ou cavalo, ele compararia partes da imagem a protótipos de partes importantes de cada animal e usaria essas informações para fazer uma previsão. Um artigo sobre este trabalho:"Isso se parece com isso:aprendizado profundo para reconhecimento de imagem interpretável, "foi recentemente apresentado em um episódio do podcast" Data Science at Home ". Um artigo anterior, "Aprendizado profundo para raciocínio baseado em casos por meio de protótipos:uma rede neural que explica suas previsões, "usou imagens inteiras como protótipos, em vez de partes.

A outra área que a equipe de pesquisa está investigando é BRLs, que são menos complicados, árvores de decisão unilateral que são adequadas para dados tabulares e geralmente tão precisas quanto outros modelos. BRLs são feitos de uma sequência de declarações condicionais que naturalmente formam um modelo interpretável. Por exemplo, se a pressão arterial estiver alta, então o risco de doenças cardíacas é alto. Su e seus colegas estão usando propriedades de BRLs para permitir que os usuários indiquem quais recursos são importantes para uma previsão. Eles também estão desenvolvendo BRLs interativos, que pode ser adaptado imediatamente quando novos dados chegam, em vez de recalibrado do zero em um conjunto de dados sempre crescente.

Stephanie Carnell, um estudante de graduação da Universidade da Flórida e um estagiário de verão no Grupo de Apoio à Decisão e Informática, está aplicando os BRLs interativos do programa AIM a um projeto para ajudar estudantes de medicina a se tornarem melhores em entrevistar e diagnosticar pacientes. Atualmente, os estudantes de medicina praticam essas habilidades entrevistando pacientes virtuais e recebendo uma pontuação sobre a quantidade de informações diagnósticas importantes que eles foram capazes de descobrir. Mas a pontuação não inclui uma explicação do que, precisamente, na entrevista os alunos fizeram para atingir sua pontuação. O projeto AIM espera mudar isso.

"Posso imaginar que a maioria dos estudantes de medicina fica muito frustrada ao receber uma previsão sobre o sucesso sem alguma razão concreta para isso, "Carnell diz." As listas de regras geradas pelo AIM devem ser um método ideal para fornecer aos alunos orientados por dados, feedback compreensível. "

O programa AIM é parte da pesquisa em andamento no laboratório em engenharia de sistemas humanos - ou a prática de projetar sistemas que sejam mais compatíveis com a forma como as pessoas pensam e funcionam, como compreensível, ao invés de obscuro, algoritmos.

“O laboratório tem a oportunidade de ser um líder global na união de seres humanos e tecnologia, "diz Hayley Reynolds, líder assistente do Grupo de Informática e Apoio à Decisão. "Estamos à beira de grandes avanços."

Melva James é outro membro da equipe técnica do Grupo de Apoio à Decisão e Informática envolvido no projeto AIM. "Nós, no laboratório, desenvolvemos implementações Python de BRL e BRLs interativos, "ela diz." [Nós] estamos testando simultaneamente a saída do BRL e as implementações interativas do BRL em diferentes sistemas operacionais e plataformas de hardware para estabelecer portabilidade e reprodutibilidade. Também estamos identificando aplicações práticas adicionais desses algoritmos. "

Su explica:"Esperamos construir uma nova capacidade estratégica para o laboratório - algoritmos de aprendizado de máquina nos quais as pessoas confiam porque os entendem."

Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.

Cientista de pesquisa de IA do Google anuncia o Dataset Search

Principais conexões de Internet e locais em risco de elevação do mar

Eletrônicos