Método: -
Pré-processamento: 1. As imagens são redimensionadas para uma resolução fixa.
2. A normalização de cores é aplicada para remover variações de iluminação.
-
Extração de recursos: 1. Redes neurais convolucionais profundas (CNNs) são usadas para extrair recursos poderosos e discriminativos de imagens.
2. A arquitetura CNN é treinada em um grande conjunto de dados de imagens com rótulos de texto associados.
-
Geração de legenda: 1. Uma rede neural recorrente (RNN) é usada para gerar legendas para imagens com base nos recursos extraídos.
2. O RNN é treinado para maximizar a probabilidade de legenda correta, dadas as características da imagem.
-
Modelo de linguagem: 1. Um modelo de linguagem adicional é usado para melhorar a correção gramatical e a fluência das legendas geradas.
2. O modelo de linguagem é treinado em um grande corpus de dados de texto.
Algoritmo: 1.
Entrada: - Imagem
- Modelo CNN pré-treinado
- Modelo RNN pré-treinado
- Modelo de linguagem
2.
Etapas: 1. Redimensione e normalize as cores da imagem de entrada.
2. Extraia recursos profundos da imagem usando o modelo CNN.
3. Gere uma legenda inicial para a imagem usando o modelo RNN.
4. Refine a legenda aplicando o modelo de linguagem.
5.
Saída: - Uma legenda em linguagem natural para a imagem de entrada.
Conjuntos de dados: - COCO (Common Objects in Context):Um conjunto de dados de imagens em grande escala com anotações de objetos e legendas de texto.
- Flickr8k:um conjunto de dados de 8.000 imagens com legendas escritas por humanos.
- Flickr30k:um conjunto de dados maior com 30.000 imagens e legendas escritas por humanos.
Avaliação: - Métricas:
- BLEU (Subestudo de Avaliação Bilíngue):Mede a similaridade entre legendas geradas e legendas de referência escritas por humanos.
- METEOR (Métrica para Avaliação de Tradução com Ordenação Explícita):Outra medida de similaridade entre legendas geradas e de referência.
- CIDEr (Avaliação de Descrição de Imagem Baseada em Consenso):Uma métrica que leva em consideração o consenso entre vários juízes humanos.