• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Cosmologistas de laboratório de Berkeley são os principais competidores no desafio de aprendizado de máquina

    Logotipo das Olimpíadas de 2020 LHC. Crédito:Gregor Kasieczka, Benjamin Nachman, David Shih

    Em busca de novas partículas, os físicos podem se apoiar em previsões teóricas que sugerem alguns bons lugares para procurar e algumas boas maneiras de encontrá-los:é como receber o esboço de uma agulha escondida em um palheiro.

    Mas pesquisas cegas são muito mais complicadas, como caçar em um palheiro sem saber o que está procurando.

    Para descobrir o que algoritmos de computador convencionais e cientistas podem negligenciar no enorme volume de dados coletados em experimentos de colisor de partículas, a comunidade de física de partículas está se voltando para o aprendizado de máquina, um aplicativo de inteligência artificial que pode aprender a melhorar suas habilidades de pesquisa à medida que vasculha um palheiro de dados.

    Em um desafio de aprendizado de máquina denominado Jogos Olímpicos do Grande Colisor de Hádrons (LHC), uma equipe de cosmologistas do Laboratório Nacional Lawrence Berkeley do Departamento de Energia dos EUA (Berkeley Lab) desenvolveu um código que melhor identificou um sinal simulado escondido em dados simulados de colisão de partículas.

    Cosmologistas? Isso mesmo.

    "Foi totalmente inesperado para nós ter um desempenho tão bom, "disse George Stein, um Berkeley Lab e pesquisador de pós-doutorado da UC Berkeley que participou do desafio com Uros Seljak, um cosmologista do Berkeley Lab, Professor da UC Berkeley, e codiretor do Berkeley Center for Cosmological Physics, do qual Stein é membro.

    Dez times, composto principalmente de físicos de partículas, competiu na competição, que funcionou a partir de 19 de novembro, 2019, a 12 de janeiro, 2020.

    Stein liderou a adaptação de um código que dois outros estudantes pesquisadores desenvolveram sob a direção de Seljak. A competição foi lançada pelos organizadores da conferência Machine Learning for Jets 2020 (ML4Jets2020). Jatos são cones estreitos de partículas produzidos em experimentos de colisão de partículas que os físicos de partículas podem rastrear para medir as propriedades de suas fontes de partículas.

    Os resultados da competição foram anunciados durante a conferência, que foi realizado na New York University de 15 a 17 de janeiro.

    Ben Nachman, um pesquisador de pós-doutorado do Berkeley Lab que faz parte de um grupo que trabalha no ATLAS - um grande detector no LHC do CERN - atuou como um dos organizadores do evento e concurso. David Shih, um professor de física e astronomia da Rutgers University agora em um ano sabático no Berkeley Lab, e Gregor Kasieczka, um professor da Universidade de Hamburgo, na Alemanha, foram co-organizadores.

    Embora algumas competições de computação permitam que os participantes enviem e testem seus códigos várias vezes para avaliar se estão chegando mais perto dos resultados corretos, a competição das Olimpíadas de 2020 do LHC deu às equipes apenas uma chance para apresentar uma solução.

    "O legal é que não usamos uma ferramenta de prateleira, "Seljak disse." Usamos uma ferramenta que desenvolvemos para nossa pesquisa. "

    Ele notou, "Em meu grupo, trabalhávamos com aprendizado de máquina não supervisionado. A ideia é que você queira descrever dados onde os dados não têm rótulos."

    A ferramenta usada pela equipe é chamada de transporte ótimo iterativo fatiado. "É uma forma de aprendizado profundo, mas uma forma em que não otimizamos tudo de uma vez, "Seljak disse." Em vez disso, fazemos iterativamente, " em estágios.

    O código é tão eficiente que pode ser executado em um simples desktop ou laptop. Ele foi desenvolvido para uma abordagem estatística conhecida como evidência Bayesiana.

    Seljak disse, "Suponha que você esteja observando anomalias no tempo de trânsito de um planeta, "o tempo que leva para o planeta passar na frente de um objeto maior do seu ponto de vista - como observar da Terra enquanto Mercúrio se move na frente do sol.

    "Uma solução requer que haja um planeta extra, " ele disse, "e a outra solução requer uma lua extra, e ambos se ajustam bem aos dados, mas eles têm parâmetros muito diferentes. Como posso comparar essas duas soluções? "

    A abordagem bayesiana é calcular a evidência para ambas as soluções e ver qual solução tem maior probabilidade de ser verdadeira.

    "Esse tipo de exemplo surge o tempo todo, "Seljak disse, e o código de sua equipe é projetado para acelerar os cálculos complexos exigidos pelos métodos convencionais. "Estávamos tentando melhorar algo não relacionado à física de partículas, e percebemos que isso poderia ser usado como uma ferramenta geral de aprendizado de máquina. "

    Ele adicionou, "Nossa solução é particularmente útil para a chamada detecção de anomalias:procurar sinais muito pequenos em dados que sejam de alguma forma diferentes de seus outros dados."

    Na competição das Olimpíadas do LHC de 2020, os participantes receberam primeiro um conjunto de dados de amostra que convocou dados de sinal de partícula de alguns dados de fundo - tanto a agulha quanto o palheiro - que permitiram aos participantes testar seus códigos.

    Em seguida, eles receberam os dados reais do concurso da "caixa preta":apenas o palheiro. Eles foram encarregados de encontrar um tipo diferente e totalmente desconhecido de sinal de partícula escondido nos dados de fundo, e para descrever especificamente os eventos de sinal que seus métodos apresentaram.

    Os co-organizadores da competição, Shih e Nachman, observaram que trabalharam pessoalmente em um método de detecção de anomalias que usa uma abordagem muito semelhante (chamada de "estimativa de densidade condicional") à técnica desenvolvida por Seljak e Stein que foi inscrita na competição.

    Seljak e Stein consultaram vários físicos de partículas no laboratório, incluindo Nachman, Shih, e o estudante de graduação Patrick McCormack. Eles discutiram, entre outros tópicos, como a comunidade de física de alta energia normalmente analisa conjuntos de dados como aqueles usados ​​na competição, mas para o verdadeiro desafio da "caixa preta", Seljak e Stein estavam por conta própria.

    Como a competição estava chegando ao fim, Stein disse, "Pensamos ter encontrado algo cerca de uma semana antes do prazo."

    Stein e Seljak enviaram seus resultados alguns dias antes da conferência, "mas como não somos físicos de partículas, não planejávamos participar da conferência, "Seljak disse.

    Então, Stein recebeu um e-mail dos organizadores da conferência, que pediu a ele para voar e apresentar uma palestra sobre a solução da equipe no final da semana. Os organizadores não divulgaram os resultados da competição até que todos os palestrantes tivessem apresentado seus resultados.

    "Minha palestra foi originalmente a primeira, e, pouco antes do início da sessão, eles me moveram para o último. Eu não sabia se isso era uma coisa boa, "Stein disse.

    O código que a equipe do Berkeley Lab inseriu pegou cerca de 1, 000 eventos, com uma margem de erro de mais ou menos 200, e a resposta correta foi 843 eventos. Seu código foi o vencedor claro nessa categoria.

    Várias equipes estiveram próximas ao estimar o nível de energia, ou "massa de ressonância, "do sinal, e a equipe do Berkeley Lab foi o mais próximo em sua estimativa da massa de ressonância para um sinal secundário originado do sinal principal.

    Na conferência, Stein observou, "Houve um grande interesse na abordagem geral que adotamos. Isso causou ondas."

    Oz Amram, outro competidor no concurso, brincou em uma postagem do Twitter, "O resultado das Olimpíadas do LHC ... é que os cosmologistas são melhores em nosso trabalho do que nós." Mas os organizadores do concurso não anunciaram formalmente o vencedor.

    Nachman, um dos organizadores do evento, disse, "Mesmo que George e Uros superaram claramente os outros concorrentes, no final, é provável que nenhum algoritmo cubra todas as possibilidades - portanto, precisaremos de um conjunto diversificado de abordagens para alcançar ampla sensibilidade. "

    Ele adicionou, "A física de partículas entrou em um momento interessante em que todas as previsões para novas partículas que testamos no Grande Colisor de Hádrons até agora não foram realizadas na natureza, exceto o Modelo Padrão da física de partículas. Embora seja essencial continuar o programa de pesquisas baseadas em modelos, também temos que desenvolver um programa paralelo para ser agnóstico em relação ao modelo. Essa é a motivação para este desafio. "

    Seljak disse que sua equipe está planejando publicar um artigo que detalha seu código de aprendizado de máquina.

    "Definitivamente, estamos planejando aplicar isso a muitos problemas de astrofísica, "disse ele." Procuraremos aplicações interessantes - qualquer coisa com falhas ou transientes, qualquer coisa anômala. Vamos trabalhar para acelerar o código e torná-lo mais poderoso. Esse tipo de abordagem pode realmente ajudar. "


    © Ciência https://pt.scienceaq.com