Perguntas e respostas:especialista explica a física da IA
Ações de aprendizagem a partir de dados. Observamos um sistema físico de graus de liberdade interativos (pontos cinza), cujas interações precisas são desconhecidas (áreas sombreadas). Treinamos uma rede neural em medições do sistema. A rede aprende de forma não supervisionada uma estimativa da distribuição dos dados de treinamento. Extraímos a ação dos parâmetros da rede camada por camada, utilizando uma linguagem diagramática. Os coeficientes de ação finais A
(k)
representam as interações aprendidas (nós rosa). Crédito:Revisão Física X (2023). DOI:10.1103/PhysRevX.13.041033 O desenvolvimento de uma nova teoria está normalmente associado aos grandes nomes da física. Você pode pensar em Isaac Newton ou Albert Einstein, por exemplo. Muitos Prémios Nobel já foram atribuídos a novas teorias.
Pesquisadores do Forschungszentrum Jülich programaram agora uma inteligência artificial que também dominou esse feito. A sua IA é capaz de reconhecer padrões em conjuntos de dados complexos e formulá-los numa teoria física. As descobertas foram publicadas na revista Physical Review X .
Na entrevista a seguir, o Prof. Moritz Helias do Instituto de Simulação Avançada de Forschungszentrum Jülich (IAS-6) explica do que se trata a "Física da IA" e até que ponto ela difere das abordagens convencionais.
Como os físicos criam uma nova teoria?
Geralmente você começa com observações do sistema antes de tentar propor como os diferentes componentes do sistema interagem entre si para explicar o comportamento observado. Novas previsões são então derivadas disso e postas à prova.
Um exemplo bem conhecido é a lei da gravitação de Isaac Newton. Ele não apenas descreve a força gravitacional na Terra, mas também pode ser usado para prever os movimentos dos planetas, luas e cometas – bem como as órbitas dos satélites modernos – com bastante precisão.
Contudo, a forma como tais hipóteses são alcançadas sempre difere. Você pode começar com princípios gerais e equações básicas da física e derivar hipóteses deles, ou pode escolher uma abordagem fenomenológica, limitando-se a descrever as observações com a maior precisão possível, sem explicar suas causas. A dificuldade reside em selecionar uma boa abordagem entre as inúmeras abordagens possíveis, adaptando-a se necessário e simplificando-a.
Qual abordagem você está adotando com IA?
Em geral, envolve uma abordagem conhecida como “física para aprendizado de máquina”. No nosso grupo de trabalho, utilizamos métodos da física para analisar e compreender a complexa função de uma IA.
A nova ideia crucial desenvolvida por Claudia Merger em nosso grupo de pesquisa foi primeiro usar uma rede neural que aprende a mapear com precisão o comportamento complexo observado em um sistema mais simples. Em outras palavras, a IA visa simplificar todas as interações complexas que observamos entre os componentes do sistema. Em seguida, usamos o sistema simplificado e criamos um mapeamento inverso com a IA treinada. Voltando do sistema simplificado para o complexo, desenvolvemos então a nova teoria.
Na volta, as interações complexas são construídas peça por peça a partir das simplificadas. Em última análise, a abordagem não é, portanto, tão diferente da de um físico, com a diferença de que a forma como as interações são montadas é agora lida a partir dos parâmetros da IA. Esta perspectiva do mundo – explicando-o a partir das interações entre as suas diversas partes que seguem certas leis – é a base da física, daí o termo “física da IA”.
Em quais aplicações a IA foi usada?
Usamos um conjunto de dados de imagens em preto e branco com números manuscritos, por exemplo, que é frequentemente usado em pesquisas ao trabalhar com redes neurais. Como parte de sua tese de doutorado, Claudia Merger investigou como pequenas subestruturas nas imagens, como as bordas dos números, são formadas por interações entre pixels. São encontrados grupos de pixels que tendem a ser mais brilhantes juntos e, portanto, contribuem para o formato da borda do número.
Qual é o esforço computacional?
O uso da IA é um truque que torna os cálculos possíveis em primeiro lugar. Você alcança rapidamente um grande número de interações possíveis. Sem usar esse truque, você só poderia observar sistemas muito pequenos. Apesar disso, o esforço computacional envolvido ainda é elevado, o que se deve ao fato de existirem muitas interações possíveis mesmo em sistemas com muitos componentes.
No entanto, podemos parametrizar eficientemente essas interações para que possamos agora visualizar sistemas com cerca de 1.000 componentes interagentes, ou seja, áreas de imagem com até 1.000 pixels. No futuro, sistemas muito maiores também deverão ser possíveis através de maior otimização.
Como essa abordagem difere de outras IAs, como ChatGPT?
Muitas IAs pretendem aprender uma teoria dos dados usados para treinar a IA. No entanto, as teorias que as IAs aprendem geralmente não podem ser interpretadas. Em vez disso, eles estão implicitamente ocultos nos parâmetros da IA treinada. Em contraste, nossa abordagem extrai a teoria aprendida e a formula na linguagem das interações entre os componentes do sistema, que fundamenta a física.
Pertence, portanto, ao campo da IA explicável, especificamente à “física da IA”, uma vez que usamos a linguagem da física para explicar o que a IA aprendeu. Podemos usar a linguagem das interações para construir uma ponte entre o complexo funcionamento interno da IA e as teorias que os humanos podem compreender.
Mais informações: Claudia Merger et al, Learning Interacting Theories from Data, Physical Review X (2023). DOI:10.1103/PhysRevX.13.041033 Fornecido por Forschungszentrum Juelich