• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  •  science >> Ciência >  >> Outros
    Conjunto de dados do Twitter TACC COVID-19 permite pesquisas de ciências sociais sobre pandemia
    p Figura de análise de rede derivada de uma amostra de 100, 000 tweets com 'covid' no tweet; os nós coloridos em verde são usuários / organizações do Twitter alt-right / fortemente conservadores. Crédito:Dhiraj Murthy, UT Austin

    p Das inúmeras maneiras pelas quais os pesquisadores estão lutando contra a disseminação do coronavírus, estudar Tweets pode não ser o primeiro que vem à mente. Mas agora, como nas crises anteriores, acessar um dos principais serviços de mensagens em tempo real do mundo pode ajudar a identificar novos pontos de acesso de pandemia, destacar novos sintomas, ou interpretar como as pessoas e comunidades estão respondendo às ordens para praticar o distanciamento social. p A equipe de ciência de dados especializada do Texas Advanced Computing Center (TACC) facilitou a análise de mídia social no passado, e desenvolveu ferramentas de aprendizado de máquina para melhor extrair agulhas de insights dos vastos palheiros do Twitterverse.

    p A partir de março, O TACC começou a ingerir grandes quantidades de tweets diariamente - cerca de 40 milhões de mensagens, dos quais um milhão são únicos. Combinando sua coleção com esforços semelhantes de grupos da UT Austin, a University of Southern California, e George State University, eles estenderam sua coleção de tweets relacionados ao COVID-19 até janeiro. (Semana Anterior, O Twitter anunciou que lançaria novos endpoints de API para sua própria coleção de tweets relacionados ao COVID-19 para desenvolvedores e pesquisadores aprovados.)

    p "Há um grande interesse nesses tipos de coleções. É muito útil na ciência de dados, "disse Weijia Xu, que gerencia o grupo de Inteligência Computacional Escalável na TACC.

    p Hoje, A TACC anunciou um novo repositório GitHub onde os pesquisadores interessados ​​podem acessar os indicadores para dados brutos do Twitter relacionados ao COVID-19 e análises em grande escala facilitadas pelos supercomputadores do TACC.

    p A primeira das análises à disposição dos pesquisadores é um conjunto de n-gramas:sequências contíguas de palavras de uma determinada amostra de tweets. O primeiro, 000 um-, dois-, e sequências de três palavras foram montadas para cada dia da pandemia. Reunir até mesmo um único grama de vários milhões de tweets pode levar até uma hora em um laptop devido à quantidade de processamento de dados envolvida, mas pode ser feito em minutos nos supercomputadores do TACC.

    p A equipe de pesquisa TACC, liderado por Xu, também tem trabalhado em análises de modelagem de tópicos, identificar termos que freqüentemente aparecem em conexão uns com os outros, embora não necessariamente em ordem. Eles serão adicionados ao repositório GitHub nas próximas semanas.

    p Ambos os métodos de agrupamento podem ser úteis na identificação de tendências de como a pandemia, e a resposta das pessoas a isso, estão evoluindo.

    p Projetos futuros usando os dados incluem um banco de dados público pesquisável; análise de entidade - inspecionar tweets para entidades conhecidas, como figuras públicas ou organizações e retornar informações sobre essas entidades; e detecção de eventos - detectando automaticamente a ocorrência de eventos e categorizando-os.

    p Uma animação que mostra os 20 principais n-gramas diários (palavras comuns em uma postagem no Twitter) mudando com o passar do tempo. Crédito:Weijia Xu, TACC

    p Esses esforços serão facilitados por ferramentas desenvolvidas no TACC, como o projeto de Extração de Vocabulário e Informação de Domínio, um esforço financiado pela National Science Foundation para extrair entidades biológicas de publicações e outros documentos de texto usando aprendizado de máquina, que foi adaptado para outros tipos de extração.

    p O principal objetivo do TACC - aqui, como na maioria das coisas - é para facilitar a pesquisa de outros e descobertas de poder. "Estamos principalmente interessados ​​em permitir que as pessoas acessem conjuntos de dados selecionados e ajudá-las a fazer pesquisas, "Xu disse." Estamos coletando, limpando, e processamento de dados para que estejam prontos para uso de outras pessoas. "

    p Pesquisadores da Universidade do Texas em Austin (UT Austin) estão entre os primeiros a expressar interesse em usar os conjuntos de dados do Twitter TACC COVID-19 para pesquisas direcionadas.

    p "The TACC COVID-19 Twitter collection will be invaluable in enabling us to model communication patterns and topics that emerge across stages of the disease, " said Sharon Stover, a professor in the Moody College of Communications. "We may be able to compare the timeline to similar data from other countries such as China that experienced the epidemic earlier. This may lead us toward understanding when typical responses occur and help us to characterize how populations make sense of health pandemics at certain stages in an epidemic's process."

    p Strover is particularly interested in learning how one might segment tweets by certain population features to learn more about sub-networks that pass along certain information—or ignore it.

    p Dhiraj Murthy, an associate professor of Journalism and Sociology at UT Austin and author of the first scholarly book about Twitter, plans to use the dataset for his academic work.

    p "My lab is in the very initial stages of using these data to study two research questions:To what extent is fake news, misinformation, and disinformation regarding COVID-19 present on social media platforms? And:Are social media platforms being used as venues for racist messaging against people of Chinese/Asian origin within COVID-19-related posts?"

    p Matt Lease, from the UT School of Information, has been using the database to research misinformation in collaboration with Murthy, and also to identify incidents of racist messaging. "The large dataset TACC is collecting, along with its computing and storage services, plus excellent researchers and staff, makes it a fantastic resource for researchers interested in studying and combatting the spread of racist messaging on Twitter."

    p Both in the moment, and for retrospective analyses, Twitter data can be an incredible resource.

    p Said TACC research associate Ruizhu Huang:"The large volume of tweets collected at TACC provides a valuable date source to explore various perspectives on COVID-19. And the storage and supercomputing power at TACC will tremendously speed up the data analysis process."


    © Ciência https://pt.scienceaq.com