Pesquisadores ensinam computadores a nomear imagens ‘pensando’

Método:
- Pré-processamento:
1. As imagens são redimensionadas para uma resolução fixa.
2. A normalização de cores é aplicada para remover variações de iluminação.
- Extração de recursos:
1. Redes neurais convolucionais profundas (CNNs) são usadas para extrair recursos poderosos e discriminativos de imagens.
2. A arquitetura CNN é treinada em um grande conjunto de dados de imagens com rótulos de texto associados.
- Geração de legenda:
1. Uma rede neural recorrente (RNN) é usada para gerar legendas para imagens com base nos recursos extraídos.
2. O RNN é treinado para maximizar a probabilidade de legenda correta, dadas as características da imagem.
- Modelo de linguagem:
1. Um modelo de linguagem adicional é usado para melhorar a correção gramatical e a fluência das legendas geradas.
2. O modelo de linguagem é treinado em um grande corpus de dados de texto.

Algoritmo:
1. Entrada:
- Imagem
- Modelo CNN pré-treinado
- Modelo RNN pré-treinado
- Modelo de linguagem
2. Etapas:
1. Redimensione e normalize as cores da imagem de entrada.
2. Extraia recursos profundos da imagem usando o modelo CNN.
3. Gere uma legenda inicial para a imagem usando o modelo RNN.
4. Refine a legenda aplicando o modelo de linguagem.
5. Saída:
- Uma legenda em linguagem natural para a imagem de entrada.

Conjuntos de dados:
- COCO (Common Objects in Context):Um conjunto de dados de imagens em grande escala com anotações de objetos e legendas de texto.
- Flickr8k:um conjunto de dados de 8.000 imagens com legendas escritas por humanos.
- Flickr30k:um conjunto de dados maior com 30.000 imagens e legendas escritas por humanos.

Avaliação:
- Métricas:
- BLEU (Subestudo de Avaliação Bilíngue):Mede a similaridade entre legendas geradas e legendas de referência escritas por humanos.
- METEOR (Métrica para Avaliação de Tradução com Ordenação Explícita):Outra medida de similaridade entre legendas geradas e de referência.
- CIDEr (Avaliação de Descrição de Imagem Baseada em Consenso):Uma métrica que leva em consideração o consenso entre vários juízes humanos.

O software antipirataria em videogames abre riscos à segurança dos computadores dos usuários?

Racional ou Aleatório? Modelo mostra como as pessoas enviam e-mails

Eletrônicos

Traduzindo instrumentos, estilos, gêneros no Facebook Artificial Intelligence Research

Bolsa de Valores de Hong Kong divulga oferta chocante de £ 32 bilhões pela rival de Londres

Ações da Embraer sobem após Bolsonaro aprovar fusão com a Boeing

Ciência

Em busca de melhores baterias de lítio-ar, químicos aumentam a estabilidade dos carbonos

Segundo bissexto de 2016:Por que esta véspera de ano novo terá um segundo extra

Fumaça de incêndio florestal está revelando décadas de ganhos na qualidade do ar