Observando as estrelas com computadores:o que o aprendizado de máquina pode nos ensinar sobre o cosmos
p O Observatório Vera Rubin abrigará a Câmera LSST, que irá reunir dados sobre 37 bilhões de galáxias e estrelas ao longo de 10 anos. Os cientistas estão desenvolvendo programas de aprendizado de máquina para analisar a enxurrada de dados. Crédito:M. Park / Inigo Films / LSST / AURA / NSF
p Olhando para o céu noturno em uma área rural, você provavelmente verá a lua brilhando cercada por estrelas. Se tiver sorte, você pode localizar a coisa mais distante visível a olho nu - a galáxia de Andrômeda. É o vizinho mais próximo da nossa galáxia, a via Láctea. Mas essa é apenas a menor fração do que está lá fora. Quando a câmera da Pesquisa de Espaço e Tempo (LSST) do Departamento de Energia (DOE) do Observatório Vera Rubin da National Science Foundation for ativada em 2022, ele vai tirar fotos de 37 bilhões de galáxias e estrelas ao longo de uma década. p A produção deste enorme telescópio inundará os pesquisadores com dados. Naqueles 10 anos, a câmera LSST levará 2, 000 fotos de cada pedaço do céu do sul que cobre. Cada imagem pode conter até um milhão de objetos.
p "Em termos de escala dos dados, a quantidade de dados, a complexidade dos dados, eles estão muito além de qualquer um dos conjuntos de dados atuais que temos, "disse Rachel Mandelbaum, professor da Carnegie Mellon University e porta-voz da LSST Dark Energy Science Collaboration. "Isso abre uma grande quantidade de espaço de descoberta."
p Os cientistas não estão construindo a câmera LSST apenas para tirar fotos bonitas. Eles querem se identificar, categorizar, e medir objetos celestes que podem revelar informações sobre a própria estrutura do universo. Compreender a energia escura e outros mistérios cosmológicos requer dados sobre supernovas e galáxias. Os pesquisadores podem até encontrar classes inteiramente novas de objetos.
p "Haverá alguns objetos que nunca vimos antes, porque esse é o ponto de uma nova descoberta, "disse Renée Hložek, professor assistente de astrofísica da Universidade de Toronto, que trabalha com o LSST Dark Energy Science Collaboration. "Encontraremos um monte do que chamamos de esquisitos, ou anomalias. "
p O grande volume e a estranheza dos dados dificultarão a análise. Embora um observador de estrelas novo em uma área possa sair a campo com um especialista local, os cientistas não têm esse guia para novas partes do universo. Então, eles estão fazendo os seus próprios. Mais precisamente, eles estão fazendo muitos guias diferentes que podem ajudá-los a identificar e categorizar esses objetos. Astrofísicos apoiados pelo DOE Office of Science estão desenvolvendo esses guias na forma de modelos de computador que dependem do aprendizado de máquina para examinar os dados LSST. Aprendizado de máquina é um processo em que um programa de computador aprende com o tempo sobre os relacionamentos em um conjunto de dados.
p
Programas de computador que aprendem
p O processamento rápido de dados é fundamental para os cientistas da Dark Energy Science Collaboration. Os cientistas precisam saber se a câmera está apontando exatamente para o lugar certo e capturando os dados corretamente todas as vezes. Esse processamento rápido também os ajuda a saber se algo mudou naquela parte do céu desde a última vez que tiraram fotos. Subtrair a foto atual das anteriores mostra se há um sinal de um objeto ou fenômeno celestial interessante.
p Eles também precisam combinar muitas fotos de uma forma precisa e utilizável. Este projeto está olhando para as profundezas do universo para capturar imagens de algumas das estrelas e galáxias mais fracas. Ele também tirará fotos em condições atmosféricas abaixo das ideais. Para compensar, os cientistas precisam de programas que combinem imagens para melhorar a clareza.
p O aprendizado de máquina pode enfrentar esses desafios, além de lidar com a grande quantidade de dados. À medida que esses programas analisam mais dados, mais precisos eles se tornam. Assim como uma pessoa aprendendo a identificar uma constelação, eles obtêm um melhor julgamento ao longo do tempo.
p "Muitos cientistas consideram o aprendizado de máquina a opção mais promissora para classificar fontes com base em medições fotométricas (medições de intensidade de luz), "disse Eve Kovacs, um físico do Laboratório Nacional de Argonne do DOE.
p Mas os programas de aprendizado de máquina precisam aprender sozinhos antes de poderem lidar com uma pilha de novos dados. Existem duas maneiras principais de "treinar" um programa de aprendizado de máquina:não supervisionado e supervisionado.
p O aprendizado de máquina não supervisionado é como alguém que está aprendendo sobre estrelas apenas com suas observações noturnas. O programa treina a si mesmo em dados não rotulados. Embora o aprendizado de máquina não supervisionado possa agrupar imagens e identificar outliers, não pode categorizá-los sem algum tipo de guia.
p O aprendizado de máquina supervisionado é como um novato confiando em um guia. Os pesquisadores o alimentam com um grande conjunto de dados que são rotulados com as classes de cada objeto. Examinando os dados repetidamente, o programa aprende a relação entre a observação e os rótulos. Essa técnica é especialmente útil para classificar objetos em grupos conhecidos.
p Em alguns casos, os pesquisadores também fornecem ao programa um conjunto específico de recursos a serem procurados, como brilho, forma, ou cor. Eles fornecem orientação sobre a importância de cada recurso em comparação com os outros. Em outros programas, o programa de aprendizado de máquina descobre sozinho os recursos relevantes.
p Contudo, a precisão do aprendizado de máquina supervisionado depende de ter um bom conjunto de treinamento, com toda a diversidade e variabilidade de um real. Para fotos da câmera LSST, essa variabilidade pode incluir faixas de satélites movendo-se no céu. A etiquetagem também deve ser extremamente precisa.
p "Temos que colocar o máximo de física possível nos conjuntos de treinamento, "disse Mandelbaum." Isso não tira de nós o fardo de compreender a física. Ele apenas o move para uma parte diferente do problema. "
p
Marcadores de milhas na estrada espacial
p Alguns dos objetos mais interessantes do universo não permanecem por muito tempo. Objetos transitórios parecem muito brilhantes, desvanece-se ao longo de um período específico de tempo, e depois escurece. Supernovas - estrelas em explosão massiva - são um tipo de objeto transiente. Objetos variáveis mudam de brilho ao longo do tempo de maneira consistente. Certos tipos de ambos podem ser "velas padrão, "itens que os cientistas podem usar para medir a distância da Terra, como marcadores de milhas em uma interestadual. Essas velas padrão fornecem informações sobre o tamanho e a história do universo.
p "Se você olhar para galáxias suficientes em uma determinada noite, é quase certo que você descobrirá uma supernova, "disse Kovacs.
p Para saber se uma supernova será útil como uma vela padrão ou não, os cientistas precisam saber de que tipo é. As supernovas do tipo Ia podem ser velas padrão. Assim como aproveitar a experiência pode dizer aos observadores se eles estão olhando para Marte ou Vênus, um programa de computador pode usar seu treinamento para classificar uma supernova a partir de uma imagem.
p "A pequena mosca na sopa de tudo isso é que as supernovas do Tipo Ia não são exatamente velas padrão. Elas têm uma certa variação, "disse Kovacs." Entender essa variação ... na verdade está no cerne de fazer todo esse trabalho. "
p Kovacs e seus colaboradores criaram um programa que usa as cores das supernovas para classificá-las em categorias. Anteriormente, os cientistas treinaram algoritmos de aprendizado de máquina fazendo-os comparar o brilho de uma supernova específica ao longo do tempo com um modelo baseado na supernova Tipo Ia. Mas os programas provavelmente classificariam erroneamente supernovas como Tipo Ia. Sua equipe adotou uma abordagem diferente. Eles identificaram um conjunto de 17 características que caracterizam as curvas de luz (variação temporal da intensidade da luz) de supernovas. Usando um conjunto de treinamento de vários milhares de supernovas simuladas, eles foram capazes de alcançar classificações com níveis extremamente altos de precisão.
p Descobrir a que distância os objetos cósmicos estão da Terra é outra área promissora para o aprendizado de máquina. Anteriormente, os cientistas confiaram em telescópios espectroscópicos que usam fibra óptica para medir com precisão as distâncias desses objetos. Mas a câmera LSST encontrará mais de 1, 000 objetos transitórios por noite. São muitos para seguir usando esta técnica. Mandelbaum e sua equipe desenvolveram um programa de aprendizado de máquina que pode estimar essa distância com precisão apenas a partir de fotos. Ele também pode adaptar e incorporar dados espectroscópicos, se disponíveis.
p Mas as supernovas não são os únicos objetos que podem ser usados como velas padrão. Na verdade, astrofísicos costumam usar outros objetos para calibrar sua distância. Mandelbaum e sua equipe usaram o aprendizado de máquina para encontrar outras velas padrão em potencial. Ao alimentar os dados do programa sobre muitas estrelas variáveis, eles descobriram que ele poderia criar e aplicar recursos que identificassem uma boa vela padrão sem a necessidade de classificar a estrela primeiro. Pular essa etapa, que requer muito rótulo, dados categorizados - simplificou o processo. Também ajudou a evitar vieses ou erros de classificação. O programa produziu uma amostra com estrelas que eram tão boas velas padrão quanto as Cefeidas, uma estrela variável útil, mas rara. Havia outro bônus - as estrelas em sua amostra eram geralmente mais brilhantes e mais fáceis de medir do que as cefeidas.
p "O aprendizado de máquina ajuda a descobrir esses espaços complicados porque os humanos têm dificuldade de pensar em mais de três dimensões, "Kovacs disse.
p
Escolhendo e Escolhendo em um Nível Galáctico
p Embora estrelas individuais possam revelar muitas informações, às vezes você precisa de uma galáxia inteira. Usando uma foto sozinha, é mais fácil descobrir a distância da galáxia hospedeira de uma supernova do que a própria supernova. Mas os cientistas devem escolher a galáxia hospedeira certa. No passado, eles fizeram essa combinação manualmente. Mas a câmera LSST vai criar dados demais para os humanos manipularem.
p Em um dos projetos de Kovac, a equipe científica desenvolveu um algoritmo que combinou a galáxia hospedeira com a supernova corretamente 90 a 92 por cento das vezes. Não é preciso o suficiente. Mas o aprendizado de máquina veio em seu socorro. A equipe desenvolveu um programa de aprendizado de máquina para informar a probabilidade de qualquer classificação estar certa ou errada. Ele identificou de sete a oito por cento da saída original como provavelmente errada. A remoção desses itens dos dados aumentou a precisão e facilitou o acompanhamento manual das fotos complicadas.
p
Aproveitando a mente coletiva
p Para explorar ainda mais o poder do aprendizado de máquina, dois dos grupos de ciência da Câmera LSST encontraram uma maneira única de recorrer à inteligência dos cientistas - eles realizaram um concurso. Em parceria com Kaggle, um site para cientistas de dados, eles tinham como alvo não astrônomos especializados em aprendizado de máquina para desenvolver programas para classificar os dados futuros da câmera LSST.
p "Se você só falar com as pessoas que você conhece, você perde essa diversidade de pensamento da comunidade maior, "disse Hložek, quem correu a competição. "Queríamos que as pessoas realmente trabalhassem juntas para reunir seus modelos e seus dados."
p Eles queriam particularmente que os programas selecionassem tipos de objetos que os astrofísicos podem não ter visto antes. Eles deram ao grupo três milhões de objetos para classificar em 15 categorias, com o dia 15 sendo 'Eu não tinha visto isso antes'.
p "Queremos nos preparar para estarmos abertos a esse tipo de trabalho, "Hložek disse." Quais são as maneiras pelas quais a estranheza pode se manifestar?
p Mais de 1, 300 competidores em 1, 000 equipes participaram do desafio, que terminou em dezembro de 2018. Agora, os pesquisadores da câmera LSST estão classificando os códigos para combiná-los no melhor conjunto possível de programas.
p Toda essa atividade está acontecendo anos antes de a câmera LSST ser ligada. Os programas de aprendizado de máquina certamente revelarão ainda mais quando os dados começarem a fluir. Embora os computadores não consigam olhar para as estrelas maravilhados, eles vão fornecer cada vez mais informações sobre os objetos celestes que nos inspiram tanto temor.