• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  •  Science >> Ciência >  >> Astronomia
    A astronomia gera montanhas de dados – isso é perfeito para IA
    Vista de um drone do Observatório Rubin em construção em 2023. O telescópio de 8,4 metros está cada vez mais próximo da conclusão e da primeira luz em 2025. O telescópio criará uma grande quantidade de dados que exigirão recursos especiais para gerenciar, incluindo IA . Crédito:Observatório Rubin/NSF/AURA/A. Pizarro D

    A IA de nível consumidor está entrando na vida diária das pessoas com sua capacidade de gerar texto e imagens e automatizar tarefas. Mas os astrônomos precisam de uma IA especializada e muito mais poderosa. A vasta quantidade de dados observacionais gerados pelos telescópios e observatórios modernos desafia os esforços dos astrónomos para extrair todo o seu significado.

    Uma equipe de cientistas está desenvolvendo uma nova IA para dados astronômicos chamada AstroPT. Eles apresentaram isso em um novo artigo intitulado “AstroPT:Scaling Large Observation Models for Astronomy”. O artigo está disponível no arXiv servidor de pré-impressão, e o autor principal é Michael J. Smith, cientista de dados e astrônomo da Aspia Space.

    Os astrónomos enfrentam um dilúvio crescente de dados, que se expandirá enormemente quando o Observatório Vera Rubin (VRO) estiver online em 2025. O VRO tem a maior câmara do mundo e cada uma das suas imagens poderá ocupar 1.500 televisores de ecrã grande. Durante a sua missão de 10 anos, o VRO irá gerar cerca de 0,5 exabytes de dados, o que representa cerca de 50.000 vezes mais dados do que os contidos na Biblioteca do Congresso dos EUA.

    Outros telescópios com espelhos enormes também se aproximam da primeira luz. O Telescópio Gigante de Magalhães, o Telescópio de Trinta Metros e o Telescópio Europeu Extremamente Grande combinados gerarão uma quantidade esmagadora de dados.
    A necessidade do VRO de ter vários locais para lidar com todos os seus dados é uma prova do enorme volume de dados que irá gerar. Sem uma IA eficaz, esses dados ficarão presos num gargalo. Crédito:NOIRLab

    Ter dados que não podem ser processados ​​é o mesmo que não ter nenhum dado. É basicamente inerte e não tem significado até que seja processado de alguma forma. “Quando você tem muitos dados e não tem a tecnologia para processá-los, é como não ter dados”, disse Cecilia Garraffo, astrofísica computacional do Centro Harvard-Smithsonian de Astrofísica.

    É aqui que entra o AstroPT.

    AstroPT significa Astro Pretrained Transformer, onde um transformador é um tipo específico de IA. Os transformadores podem alterar ou transformar uma sequência de entrada em uma sequência de saída. A IA precisa ser treinada, e o AstroPT foi treinado em 8,6 milhões de imagens de 512 x 512 pixels do DESI Legacy Survey Data Release 8. DESI é o instrumento espectroscópico de energia escura. O DESI estuda o efeito da Energia Escura capturando o espectro óptico de dezenas de milhões de galáxias e quasares.

    AstroPT e IA semelhante lidam com “tokens”. Tokens são elementos visuais em uma imagem maior que contêm significado. Ao dividir as imagens em tokens, uma IA pode compreender o significado mais amplo de uma imagem. O AstroPT pode transformar tokens individuais em resultados coerentes.

    AstroPT foi treinado em tokens visuais. A ideia é ensinar a IA a prever o próximo token. Quanto mais minuciosamente for treinado para fazer isso, melhor será seu desempenho.

    “Demonstramos que modelos autoregressivos generativos simples podem aprender informações cientificamente úteis quando pré-treinados na tarefa substituta de prever o próximo patch de 16 × 16 pixels em uma sequência de patches de imagens de galáxias”, escrevem os autores. Neste esquema, cada patch de imagem é um token.
    Esta imagem ilustra como os autores treinaram o AstroPT para prever o próximo token em uma sequência 'espiralizada' de manchas de imagens de galáxias. Mostra a ordem de alimentação do token. “Como as galáxias estão no centro de cada selo postal, esta configuração permite-nos pré-treinar e executar inferências em selos postais de galáxias de tamanhos diferentes”, explicam os autores. Crédito:Smith et al, 2024

    Um dos obstáculos ao treinamento de IA como o AstroPT diz respeito ao que os cientistas de IA chamam de “crise simbólica”. Para ser eficaz, a IA precisa ser treinada em um grande número de tokens de qualidade. Num artigo de 2023, uma equipa separada de investigadores explicou que a falta de tokens pode limitar a eficácia de algumas IA, como LLMs ou Grandes Modelos de Linguagem. “Os LLMs de última geração exigem grandes quantidades de dados de texto em escala de Internet para pré-treinamento”, escreveram eles. "Infelizmente,… a taxa de crescimento de dados de texto de alta qualidade na Internet é muito mais lenta do que a taxa de crescimento de dados exigida pelos LLMs."

    O AstroPT enfrenta o mesmo problema:falta de tokens de qualidade para treinar. Como outras IAs, ela usa LOMs ou Grandes Modelos de Observação. A equipe afirma que seus resultados até agora sugerem que o AstroPT pode resolver a crise simbólica usando dados de observações. "Este é um resultado promissor que sugere que os dados retirados das ciências observacionais complementariam os dados de outros domínios quando usados ​​para pré-treinar uma única LOM multimodal, e assim aponta para o uso de dados observacionais como uma solução para a 'crise simbólica. '"

    Os desenvolvedores de IA estão ansiosos para encontrar soluções para a crise dos tokens e outros desafios de IA.

    Sem uma IA melhor, um estrangulamento no processamento de dados impedirá que astrónomos e astrofísicos façam descobertas a partir das vastas quantidades de dados que chegarão em breve. O AstroPT pode ajudar?

    Os autores esperam que sim, mas precisa de muito mais desenvolvimento. Dizem que estão abertos a colaborar com outros para fortalecer o AstroPT. Para ajudar nisso, eles seguiram os “modelos comunitários líderes atuais” o mais fielmente possível. Eles chamam isso de “projeto aberto a todos”.

    “Tomamos essas decisões na crença de que o desenvolvimento colaborativo da comunidade abre o caminho mais rápido para a realização de um grande modelo de observação de código aberto em escala web”, escrevem eles.

    “Convidamos calorosamente potenciais colaboradores a se juntarem a nós”, concluem.

    Será interessante ver como os desenvolvedores de IA acompanharão a vasta quantidade de dados astronômicos que chegam até nós.



    © Ciência https://pt.scienceaq.com