Crédito:Domínio Público CC0
Nos últimos anos, o crowdsourcing, que envolve o recrutamento de membros do público para ajudar a coletar dados, tem sido extremamente útil para fornecer aos pesquisadores conjuntos de dados únicos e ricos, além de envolver o público no processo de descoberta científica. Em um novo estudo, uma equipe internacional de pesquisadores explorou como os projetos de crowdsourcing podem fazer o uso mais eficaz das contribuições voluntárias.
As atividades de coleta de dados por meio de crowdsourcing variam de atividades em campo, como observação de pássaros, a atividades online, como classificação de imagens para projetos como o bem-sucedido Galaxy Zoo, no qual os participantes classificam formas de galáxias; e Geo-Wiki, onde as imagens de satélite são interpretadas para cobertura da terra, uso da terra e indicadores socioeconômicos. Obter informações de tantos participantes analisando um conjunto de imagens, no entanto, levanta questões sobre a precisão das respostas enviadas. Embora existam métodos para garantir a precisão dos dados coletados dessa maneira, eles geralmente têm implicações para atividades de crowdsourcing, como design de amostragem e custos associados.
Em seu estudo recém publicado na revista
PLoS ONE , pesquisadores do IIASA e colegas internacionais exploraram a questão da precisão investigando quantas classificações de uma tarefa precisam ser concluídas antes que os pesquisadores possam ter certeza da resposta correta.
"Muitos tipos de pesquisa com participação do público envolvem a obtenção de voluntários para classificar imagens que são difíceis para os computadores distinguirem de forma automatizada. Porém, quando uma tarefa precisa ser repetida por muitas pessoas, isso torna a atribuição de tarefas às pessoas que as executam mais eficiente se você tiver certeza sobre a resposta correta. Isso significa que menos tempo de voluntários ou avaliadores pagos é desperdiçado, e cientistas ou outros que solicitam as tarefas podem obter mais dos recursos limitados disponíveis para eles", explica Carl Salk, ex-aluno da IIASA Young Scientists Summer Program (YSSP) e colaborador de longa data do IIASA atualmente associado à Universidade Sueca de Ciências Agrárias.
Os pesquisadores desenvolveram um sistema para estimar a probabilidade de que a resposta da maioria a uma tarefa esteja errada e, em seguida, pararam de atribuir a tarefa a novos voluntários quando essa probabilidade se tornou suficientemente baixa, ou a probabilidade de obter uma resposta clara tornou-se baixa. Eles demonstraram esse processo usando um conjunto de mais de 4,5 milhões de classificações exclusivas por 2.783 voluntários de mais de 190.000 imagens avaliadas quanto à presença ou ausência de terras agrícolas. Os autores ressaltam que se o sistema tivesse sido implementado na campanha original de coleta de dados, teria eliminado a necessidade de 59,4% de avaliações de voluntários, e que se o esforço tivesse sido aplicado em novas tarefas, teria permitido mais que o dobro do quantidade de imagens a serem classificadas com a mesma quantidade de trabalho. Isso mostra o quão eficaz esse método pode ser para fazer uso mais eficiente de contribuições voluntárias limitadas.
Segundo os pesquisadores, esse método pode ser aplicado a praticamente qualquer situação em que seja necessária uma classificação sim ou não (binária), e a resposta pode não ser muito óbvia. Exemplos podem incluir a classificação de outros tipos de uso da terra, por exemplo:"Existe floresta nesta foto?"; identificação de espécies, perguntando:"Há algum pássaro nesta foto?"; ou até mesmo o tipo de tarefas "ReCaptcha" que fazemos para convencer sites de que somos humanos, como "Há um semáforo nesta imagem?" O trabalho também pode contribuir para responder melhor a questões importantes para os formuladores de políticas, como quanta terra no mundo é usada para o cultivo.
"À medida que os cientistas de dados se voltam cada vez mais para técnicas de aprendizado de máquina para classificação de imagens, o uso de crowdsourcing para construir bibliotecas de imagens para treinamento continua a ganhar importância. os esforços quando o nível de confiança necessário é alcançado ou uma imagem específica é muito difícil de classificar", conclui o coautor do estudo, Ian McCallum, que lidera o Grupo de Pesquisa de Ecossistemas de Dados Novos para Sustentabilidade do IIASA.