Um juramento hipocrático para ciência de dados? Vamos nos contentar com um pouco mais de alfabetização em dados

p Viés em, polarização:muitos algoritmos têm problemas de design inerentes. Crédito:Vintage Tone / Shutterstock

p "Eu juro por Hypatia, por Lovelace, por Turing, por Fisher (e / ou Bayes), e por todos os estatísticos e cientistas de dados, tornando-os minhas testemunhas, que irei realizar, de acordo com minha habilidade e julgamento, este juramento e este contrato. " p Poderia ser esta a primeira linha de um "juramento hipocrático" para matemáticos e cientistas de dados? Hannah Fry, Professor associado em matemática de cidades na University College London, argumenta que matemáticos e cientistas de dados precisam de tal juramento, assim como médicos que juram agir apenas no melhor interesse de seus pacientes.

p "Em medicina, você aprende sobre ética desde o primeiro dia. Na matemática, é um aparafusado na melhor das hipóteses. Tem que estar lá desde o primeiro dia e na vanguarda de sua mente em cada passo que você dá, "Fry argumentou.

p Mas é realmente necessária uma versão tecnológica do juramento de Hipócrates? Em medicina, esses juramentos variam entre as instituições, e evoluíram muito nos quase 2, 500 anos de sua história. De fato, há algum debate sobre se o juramento continua relevante para os médicos praticantes, particularmente porque é a lei, em vez de um conjunto de princípios gregos antigos, pelo qual eles devem finalmente obedecer.

p Como a ciência de dados atingiu o ponto em que uma promessa ética é considerada necessária? Certamente, existem vários exemplos de algoritmos que causam danos - algoritmos de condenação criminal, por exemplo, têm demonstrado recomendar desproporcionalmente que pessoas de baixa renda e pertencentes a minorias sejam enviadas para a prisão.

p Crises semelhantes já levaram a propostas de compromissos éticos antes. No rescaldo da crise financeira global de 2008, um manifesto dos engenheiros financeiros Emanuel Derman e Paul Wilmott implorou aos modeladores econômicos que jurassem não "dar às pessoas que usam meu modelo um falso conforto sobre sua precisão. Em vez disso, Vou tornar explícitas suas suposições e omissões. "

p Assim como preconceitos podem ser aprendidos na infância, os vieses desses algoritmos são resultado de seu treinamento. Uma característica comum desses algoritmos é o uso de algoritmos de caixa preta (muitas vezes proprietários), muitos dos quais são treinados com dados estatisticamente tendenciosos.

p No caso da justiça criminal, o resultado injusto do algoritmo decorre do fato de que, historicamente, as minorias estão sobrerrepresentadas nas populações carcerárias (muito provavelmente como resultado de preconceitos humanos de longa data). Essa tendência é, portanto, replicada e provavelmente exacerbada pelo algoritmo.

p Algoritmos de aprendizado de máquina são treinados em dados, e só se pode esperar que produzam previsões que se limitam a esses dados. Viés em, enviesamento.

p Promessas, promessas

p Será que fazer uma promessa ética teria ajudado os projetistas desses algoritmos? Possivelmente, mas uma maior consciência dos vieses estatísticos pode ter sido suficiente. Questões de representação imparcial na amostragem têm sido a pedra angular das estatísticas, e o treinamento nesses tópicos pode ter levado os projetistas a recuar e questionar a validade de suas previsões.

p A própria Fry comentou sobre este assunto no passado, dizendo que é necessário que as pessoas "prestem atenção em como os preconceitos que você tem nos dados podem acabar alimentando as análises que você está fazendo".

p Mas, embora as questões de representação imparcial não sejam novas nas estatísticas, o uso crescente de algoritmos de alta potência em áreas contenciosas torna a "alfabetização em dados" mais relevante do que nunca.

p Parte do problema é a facilidade com que os algoritmos de aprendizado de máquina podem ser aplicados, tornando a alfabetização em dados não mais específica para cientistas matemáticos e da computação, mas para o público em geral. A alfabetização estatística e de dados básica generalizada ajudaria a conscientizar sobre os problemas com vieses estatísticos, e são um primeiro passo para se proteger contra o uso impróprio de algoritmos.

p Ninguém é perfeito, e embora a alfabetização melhorada em dados ajude, vieses não intencionais ainda podem ser negligenciados. Os algoritmos também podem conter erros. Uma maneira fácil (de descrever) de se proteger contra esses problemas é torná-los publicamente disponíveis. Esse código-fonte aberto pode permitir a responsabilidade conjunta por tendências e verificação de erros.

p Esforços desse tipo estão começando a surgir, por exemplo, o Projeto de Transparência e Responsabilidade na Web da Universidade de Princeton. Claro, muitos algoritmos proprietários são comerciais confidenciais, o que torna a transparência difícil. Portanto, é provável que as estruturas regulatórias se tornem importantes e necessárias nessa área. Mas uma pré-condição é para os praticantes, políticos, advogados, e outros para entender as questões em torno da ampla aplicabilidade de modelos, e seus enviesamentos estatísticos inerentes.

p A ética é sem dúvida importante, e em um mundo perfeito faria parte de qualquer educação. Mas os diplomas universitários são finitos. Argumentamos que a alfabetização em dados e estatística é uma preocupação ainda mais urgente, e pode ajudar a prevenir o aparecimento de mais "algoritmos antiéticos" no futuro. p Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.