Uma jovem estrela semelhante ao Sol, rodeada por seu disco de gás e poeira, formador de planetas. Crédito:NASA / JPL-Caltech
Como parte de um esforço para identificar planetas distantes, hospitaleiros para a vida, A NASA estabeleceu um projeto de crowdsourcing em que voluntários procuram imagens telescópicas em busca de evidências de discos de destroços ao redor das estrelas, que são bons indicadores de exoplanetas.
Usando os resultados desse projeto, pesquisadores do MIT já treinaram um sistema de aprendizado de máquina para procurar discos de entulho por conta própria. A escala da busca exige automação:há quase 750 milhões de fontes de luz possíveis nos dados acumulados apenas pela missão Wide-Field Infrared Survey Explorer (WISE) da NASA.
Em testes, o sistema de aprendizado de máquina concordou com as identificações humanas de discos de detritos 97 por cento das vezes. Os pesquisadores também treinaram seu sistema para classificar discos de detritos de acordo com a probabilidade de conter exoplanetas detectáveis. Em um artigo que descreve o novo trabalho na revista Astronomia e Computação , os pesquisadores do MIT relatam que seu sistema identificou 367 objetos celestes não examinados anteriormente como candidatos particularmente promissores para estudos posteriores.
O trabalho representa uma abordagem incomum de aprendizado de máquina, que foi defendido por um dos co-autores do jornal, Victor Pankratius, um cientista pesquisador principal do Observatório do Palheiro do MIT. Tipicamente, um sistema de aprendizado de máquina vasculhará uma grande variedade de dados de treinamento, procurando correlações consistentes entre as características dos dados e algum rótulo aplicado por um analista humano - neste caso, estrelas circundadas por discos de detritos.
Mas Pankratius argumenta que nas ciências, sistemas de aprendizado de máquina seriam mais úteis se incorporassem explicitamente um pouco de conhecimento científico, para ajudar a orientar suas buscas por correlações ou identificar desvios da norma que possam ser de interesse científico.
"A visão principal é ir além do que a A.I. está focando hoje, "Pankratius diz." Hoje, estamos coletando dados, e estamos tentando encontrar recursos nos dados. Você acaba com bilhões e bilhões de recursos. Então, o que você está fazendo com eles? O que você quer saber como cientista não é que o computador diz que certos pixels são determinados recursos. Você quer saber 'Oh, isso é algo fisicamente relevante, e aqui estão os parâmetros físicos da coisa. '"
Concepção de sala de aula
O novo artigo surgiu de um seminário do MIT que Pankratius co-ensinou com Sara Seager, a classe de 1941 Professor de Terra, Atmosférico, e Ciências Planetárias, que é bem conhecida por suas pesquisas sobre exoplanetas. O seminário, Astroinformática para Exoplanetas, apresentou aos alunos técnicas de ciência de dados que poderiam ser úteis para interpretar a enxurrada de dados gerados por novos instrumentos astronômicos. Depois de dominar as técnicas, os alunos foram solicitados a aplicá-los a questões astronômicas importantes.
Para seu projeto final, Tam Nguyen, um estudante de graduação em aeronáutica e astronáutica, escolheu o problema de treinar um sistema de aprendizado de máquina para identificar discos de detritos, e o novo papel é uma conseqüência desse trabalho. Nguyen é o primeiro autor do artigo, e ela se juntou a Seager, Pankratius, e Laura Eckman, uma graduação com especialização em engenharia elétrica e ciência da computação.
Do projeto de crowdsourcing da NASA, os pesquisadores tinham as coordenadas celestes das fontes de luz que os voluntários humanos identificaram como sendo discos de destroços. Os discos são reconhecíveis como elipses de luz com elipses ligeiramente mais brilhantes em seus centros. Os pesquisadores também usaram os dados astronômicos brutos gerados pela missão WISE.
Para preparar os dados para o sistema de aprendizado de máquina, Nguyen dividiu em pequenos pedaços, em seguida, usou técnicas de processamento de sinal padrão para filtrar artefatos causados pelos instrumentos de imagem ou pela luz ambiente. Próximo, ela identificou esses pedaços com fontes de luz em seus centros, e usou algoritmos de segmentação de imagem existentes para remover quaisquer fontes adicionais de luz. Esses tipos de procedimentos são típicos em qualquer projeto de aprendizado de máquina com visão computacional.
Intuições codificadas
Mas Nguyen usou princípios básicos da física para podar ainda mais os dados. Por uma coisa, ela olhou para a variação na intensidade da luz emitida pelas fontes de luz em quatro bandas de frequência diferentes. Ela também usou métricas padrão para avaliar a posição, simetria, e escala das fontes de luz, estabelecer limites para inclusão em seu conjunto de dados.
Além dos discos de destroços marcados do projeto de crowdsourcing da NASA, os pesquisadores também tinham uma pequena lista de estrelas que os astrônomos identificaram como provavelmente hospedando exoplanetas. A partir dessa informação, seu sistema também inferiu características de discos de detritos que foram correlacionados com a presença de exoplanetas, para selecionar os 367 candidatos para estudos posteriores.
"Dados os desafios de escalabilidade com big data, alavancar o crowdsourcing e a ciência do cidadão para desenvolver conjuntos de dados de treinamento para classificadores de aprendizado de máquina para observações astronômicas e objetos associados é uma maneira inovadora de enfrentar desafios não apenas em astronomia, mas também em várias áreas científicas com uso intensivo de dados. "diz Dan Crichton, que lidera o Centro de Ciência e Tecnologia de Dados do Laboratório de Propulsão a Jato da NAASA. "O uso do pipeline de descoberta auxiliado por computador descrito para automatizar a extração, classificação, e o processo de validação será útil para sistematizar como esses recursos podem ser reunidos. O artigo faz um bom trabalho ao discutir a eficácia dessa abordagem aplicada a candidatos a discos de detritos. As lições aprendidas serão importantes para generalizar as técnicas para outras aplicações de astronomia e diferentes disciplinas. "
"A equipe científica do Disk Detective está trabalhando em seu próprio projeto de aprendizado de máquina, e agora que este artigo saiu, vamos ter que nos reunir e comparar notas, "diz Marc Kuchner, um astrofísico sênior do Goddard Space Flight Center da NASA e líder do projeto de detecção de disco de crowdsourcing conhecido como Disk Detective. "Estou muito feliz que Nguyen esteja investigando isso porque realmente acho que esse tipo de cooperação máquina-homem será crucial para analisar os conjuntos de big data do futuro."
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.