• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • O que acontece quando os cientistas de dados analisam três séculos de Robinson Crusoe?
    p Leitura 1, Mais de 400 edições de “Robinson Crusoe” em um verão é impossível. Então, uma equipe de alunos tentou treinar computadores para fazer isso por eles. Crédito:Duke Research Blog

    p Desde o conto de naufrágio de Daniel Defoe "Robinson Crusoe" foi publicado pela primeira vez há quase 300 anos, milhares de edições e versões spinoff foram publicadas, em centenas de idiomas. p Uma equipe de pesquisa liderada por Grant Glass, um Ph.D. estudante de inglês e literatura comparada na University of North Carolina em Chapel Hill, queria saber como a história mudou ao passar por várias edições, imitações e traduções, e para ver quais partes resistiram ao teste do tempo.

    p Ler todos eles no ritmo de um por dia levaria anos. Em vez de, os pesquisadores estão treinando computadores para fazer isso por eles.

    p Este Verão, A equipe de Glass no programa de pesquisa Data + summer usou algoritmos de computador e técnicas de aprendizado de máquina para filtrar 1, 482 versões de texto completo de Robinson Crusoe, compilado de arquivos online.

    p "Muitas vezes pensamos em um livro como uma pedra, "Glass disse." Mas um projeto como este mostra que é uma bagunça. Há muita variação nisso. "

    p "Quando você pega um livro, é importante saber que cópia é, porque isso pode afetar a maneira como você pensa sobre a história, "Glass disse.

    p Apenas colocar os textos em uma forma que um computador pudesse processar provou ser metade da batalha, disse o membro da equipe de graduação Orgil Batzaya, um duque com especialização em matemática e ciência da computação.

    Crédito:Duke Research Blog
    p Os livros já foram digitalizados e postados online, então os alunos usaram um software para baixar as digitalizações da internet, por meio de um processo denominado "raspagem". Mas processar as páginas digitalizadas de livros impressos antigos, alguns dos quais tinham manchas, manchas ou tipo desgastado, e convertê-los para um formato legível por máquina foi mais complicado do que eles pensavam.

    p O software lutou para decodificar as grafias estranhas ("entregue, "" desejo, "" persuasões, "" costa "versus" shoar "), diferentes fontes entre as edições, e outras peculiaridades.

    p Caracteres especiais exclusivos de fontes do século 18, como a curiosa versão em forma de f da letra "s, "fazer até mesmo os humanos lerem" diftance "e" poffible "com um ceceio mental.

    p Suas primeiras tentativas surgiram com gobbledygook. "O reconhecimento óptico de caracteres resultante era completamente inutilizável, disse o membro da equipa e sénior do Duque Gabriel Guedes.

    p Em uma sessão de pôster Data + em agosto, Guedes, Batzaya e o duplo major de história e ciência da computação, Lucian Li, apresentaram seus resultados iniciais:uma coleção de gráficos de dispersão coloridos, mapas, fluxogramas e gráficos de linha.

    Crédito:Duke Research Blog
    p Guedes apontou para grupos de pontos em um gráfico de rede. "Aqui, as edições vermelhas são americanas, as edições azuis são do Reino Unido, "Disse Guedes." O gráfico da rede reconhece a semelhança entre todas essas edições e as agrupa. "

    p Depois de transformarem as páginas digitalizadas em textos legíveis por máquina, a equipe os alimentou em um algoritmo de aprendizado de máquina que mede a similaridade entre os documentos.

    p O algoritmo recebe pedaços de textos - sentenças, parágrafos, até mesmo romances inteiros - e os converte em vetores de alta dimensão.

    p Criando esta representação numérica de cada livro, Disse Guedes, tornou possível realizar operações matemáticas sobre eles. Eles somaram os vetores de cada livro para encontrar sua soma, calculou a média, e olhou para ver qual edição estava mais próxima da edição "média". Acabou sendo uma versão de Robinson Crusoe publicada em Glasgow em 1875.

    p Eles também analisaram a importância de pontos específicos da trama para determinar a proximidade de uma determinada edição com a edição "média":o que dizer do momento em que Crusoé identifica uma pegada na areia e percebe que não está sozinho? Ou o momento em que Crusoé e Sexta-feira, depois de deixar a ilha, lutar contra lobos famintos nos Pirenéus?

    Crédito:Duke Research Blog
    p Os resultados da equipe podem ser chocantes para aqueles que não estão acostumados a ver 300 anos de publicação reduzidos a um gráfico de barras. Mas, ao usar computadores para comparar milhares de livros de uma vez, Estudiosos das "humanidades digitais" dizem que é possível traçar padrões e tendências em grande escala que os humanos não conseguem ler debruçados sobre livros individuais.

    p "Isso é realmente algo que apenas um computador pode fazer, "Disse Guedes, apontando para um mapa de lapso de tempo mostrando como a história de Crusoe se espalhou pelo globo, construído a partir de dados sobre o local e data de publicação para 15, 000 edições.

    p “É uma forma de 'leitura distante', "Disse Guedes." Você usa essa quantidade enorme de informações para ajudar a tirar conclusões sobre o histórico de publicações, o movimento de ideias, e conhecimento em geral ao longo do tempo. "


    © Ciência https://pt.scienceaq.com