• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Pesquisadores ensinam computadores a nomear imagens ‘pensando’
    Método:
    - Pré-processamento:
    1. As imagens são redimensionadas para uma resolução fixa.
    2. A normalização de cores é aplicada para remover variações de iluminação.
    - Extração de recursos:
    1. Redes neurais convolucionais profundas (CNNs) são usadas para extrair recursos poderosos e discriminativos de imagens.
    2. A arquitetura CNN é treinada em um grande conjunto de dados de imagens com rótulos de texto associados.
    - Geração de legenda:
    1. Uma rede neural recorrente (RNN) é usada para gerar legendas para imagens com base nos recursos extraídos.
    2. O RNN é treinado para maximizar a probabilidade de legenda correta, dadas as características da imagem.
    - Modelo de linguagem:
    1. Um modelo de linguagem adicional é usado para melhorar a correção gramatical e a fluência das legendas geradas.
    2. O modelo de linguagem é treinado em um grande corpus de dados de texto.

    Algoritmo:
    1. Entrada:
    - Imagem
    - Modelo CNN pré-treinado
    - Modelo RNN pré-treinado
    - Modelo de linguagem
    2. Etapas:
    1. Redimensione e normalize as cores da imagem de entrada.
    2. Extraia recursos profundos da imagem usando o modelo CNN.
    3. Gere uma legenda inicial para a imagem usando o modelo RNN.
    4. Refine a legenda aplicando o modelo de linguagem.
    5. Saída:
    - Uma legenda em linguagem natural para a imagem de entrada.

    Conjuntos de dados:
    - COCO (Common Objects in Context):Um conjunto de dados de imagens em grande escala com anotações de objetos e legendas de texto.
    - Flickr8k:um conjunto de dados de 8.000 imagens com legendas escritas por humanos.
    - Flickr30k:um conjunto de dados maior com 30.000 imagens e legendas escritas por humanos.

    Avaliação:
    - Métricas:
    - BLEU (Subestudo de Avaliação Bilíngue):Mede a similaridade entre legendas geradas e legendas de referência escritas por humanos.
    - METEOR (Métrica para Avaliação de Tradução com Ordenação Explícita):Outra medida de similaridade entre legendas geradas e de referência.
    - CIDEr (Avaliação de Descrição de Imagem Baseada em Consenso):Uma métrica que leva em consideração o consenso entre vários juízes humanos.
    © Ciência https://pt.scienceaq.com