Um novo estudo explora o humor em embeddings de palavras

Representação dos clusters identificados pelos pesquisadores. Crédito:Gultchin et al.

Os avanços no campo da IA permitiram o desenvolvimento de ferramentas que podem compreender uma variedade de linguagens e se comunicar com os humanos. Contudo, ainda existem aspectos da comunicação humana com os quais os sistemas de IA lutam, um dos quais é o humor.

Uma equipe de pesquisadores da Universidade de Oxford, A Microsoft Research e a TRASH realizaram recentemente um estudo investigando o humor em incorporações de palavras. Embeddings de palavras são uma ferramenta de IA popular que pode associar palavras a vetores euclidianos.

"Estávamos interessados em estudar como os computadores podem entender o humor, "Adam Kalai, Pesquisador da Microsoft que realizou o estudo, disse TechXplore. "Embora a IA seja bastante poderosa e possa até traduzir de um idioma para outro, A IA não conseguiu entender o humor. Decidimos testar se a IA poderia entender o humor no nível de uma palavra individual, já que muitas pessoas acham algumas palavras como 'nincompoop' um pouco engraçadas. "

Em seu estudo, Kalai e seus colegas consideraram seis características principais do humor das palavras, inspirando-se em teorias existentes e discussões acadêmicas de humor. Esses recursos incluem:sons humorísticos (independentemente do significado), justaposições / incongruência inesperada, conotações sexuais, conotações escatológicas, palavras insultuosas e palavras coloquiais.

Os pesquisadores investigaram até que ponto esses recursos se correlacionam com o humor e quão bem uma incorporação de word2vec pré-treinada em um corpus do Google News, chamado GNEWS, poderia capturar cada um deles. Um conjunto de dados usado em seu estudo foi o conjunto de dados Engelthaler-Hill (EH), que consiste em classificações de humor maldoso para 4, 997 palavras, cada um dos quais foi classificado em uma escala de um a cinco (por aproximadamente 35 avaliadores humanos).

Para entender melhor as diferenças na percepção das pessoas sobre palavras engraçadas, os pesquisadores também coletaram um conjunto de dados original menor de palavras altamente humorísticas, recrutamento de pessoas que falam inglês para rotular essas palavras por meio da plataforma Mechanical Turk da Amazon. Eles realizaram uma série de estudos de avaliação de humor, pedindo aos participantes que selecionem as palavras que acham mais engraçadas, bem como para anotar palavras com as teorias de humor relevantes para cada um.

Figura que descreve a relação entre recursos relacionados às teorias de palavras na incorporação de palavras e suas respectivas classificações de humor. Crédito:Gultchin et al.

"Pedimos a várias pessoas que classificassem quais palavras consideravam mais engraçadas entre as palavras em inglês, "Kalai explicou." Projetamos um estudo em que as pessoas identificaram as palavras que acharam mais engraçadas com o mínimo de esforço (poucos cliques). "

Subseqüentemente, os pesquisadores investigaram como as características de humor que eles identificaram inicialmente se correlacionavam com as avaliações de humor em seu conjunto de dados, para determinar a eficácia dos construtos teóricos na captura de classificações dadas por humanos. Além disso, eles testaram a previsibilidade dessas classificações usando incorporação de palavras, explorando até que ponto a IA poderia entender o humor.

"Descobrimos que a IA conseguia entender por que as pessoas achavam algumas palavras mais engraçadas do que outras, e a IA poderia até mesmo entender as diferenças entre os sentidos de humor, "Kalai disse." AI ainda não entendo o humor em frases ou textos longos, mas esperamos que nosso trabalho seja um ponto de partida. "

Kalai e seus colegas descobriram que os embeddings de palavras capturavam efetivamente aspectos do humor das palavras, conforme classificado no conjunto de dados EH, bem como diferenças nas classificações de humor de seu novo conjunto de dados. Suas descobertas sugerem ainda que o senso de humor das pessoas pode ser incorporado usando um punhado de classificações e que os encaixes resultantes podem ser usados para prever classificações de humor para palavras anteriormente não classificadas.

"Nossas conclusões mostram uma aplicação interessante de incorporação de palavras e pavimentam o caminho para explorá-las para fazer mais trabalho de humor de IA, como gerar ou prever palavras engraçadas que correspondam a sentidos individuais de humor, e em conjunto, "Limor Gultchin, um pesquisador da Universidade de Oxford envolvido no estudo, disse TechXplore. "Ao mesmo tempo, também fornecemos validação adicional para noções intuitivas de humor, e conhecimento adquirido em outros campos, como psicologia ou filosofia. "

O estudo realizado por Kalai, Gultchin e seus colegas mostram que a incorporação de palavras pode aprimorar nossa compreensão do humor de várias maneiras. Em primeiro lugar, eles descobriram que estabeleceram teorias de humor (por exemplo, a teoria da superioridade, teoria da incongruência, etc.) são representados em embeddings de palavras em vários graus e podem, portanto, ser usados para identificar ou prever humor, capturado por classificações humanas.

Tabela que captura as diferenças entre um senso de humor mais 'feminino' e 'masculino'. Crédito:Gultchin et al.

Usando representações vetoriais de palavras, os pesquisadores também foram capazes de definir um senso de humor individual como um vetor médio, usar esses vetores para prever os sentidos de humor de diferentes pessoas (ou seja, as avaliações de humor que dariam a certas palavras). Finalmente, o agrupamento de sentidos de humor permitiu-lhes identificar agrupamentos de humor, como 'humor feminino, '' humor masculino, '' humor antigo, 'etc.

Esta é uma descoberta importante, pois valida a ideia de que diferentes grupos de pessoas têm diferentes sentidos de humor. Por exemplo, eles observaram que palavras sexuais (por exemplo, 'papo-furado') eram mais engraçadas para os homens do que para as mulheres, enquanto as mulheres reagem mais a palavras 'engraçadas' (por exemplo, 'gobbledegook').

"Na era dos sistemas de IA prevalentes, como sistemas de recomendação ou assistentes automatizados, o humor provavelmente seria importante para facilitar um trabalho mais suave, interação mais contínua entre usuários e sistemas automatizados, "Gultchin disse." Esperamos que este trabalho ajude como uma prova de conceito, mostrando que as ferramentas de PNL existentes já podem nos ajudar a atingir esse objetivo. "

Kalain, Gultchin e seus colegas disponibilizarão publicamente os novos conjuntos de dados usados em seu estudo, para que outros pesquisadores possam utilizá-los em seus estudos. Eles acham que melhorar a compreensão dos sistemas de IA da palavra humor poderia abrir várias possibilidades interessantes, por exemplo, levando ao desenvolvimento de ferramentas para auxiliar comediantes ou melhorando as interações entre máquinas e seres humanos.

“Ainda estamos no processo de ver como esse trabalho será aceito, mas existem várias direções futuras, "Gultchin disse." Seria realmente interessante ver se os conceitos apresentados aqui poderiam de fato ser usados em um sistema interativo que produza modificações 'engraçadas' em frases com base no senso de humor de um indivíduo, conforme representado usando embeddings de palavras. Outra direção interessante é ver se podemos aprender a prever e gerar frases cheias de humor ou, com desenvolvimentos recentes, parágrafos cheios de humor. "

Ferramenta impressa 3-D corta titânio, ganha prêmio de inovação

A nova abordagem de IA preenche a lacuna de dados reduzida que pode bloquear as abordagens de aprendizado profundo

Eletrônicos