Données conceptuelles dans la génération d'image

Question 1

Il y a me semble t'il une question non abordée dans la génération des images, comment le réseau de neurones apprend t'il ce que l'image représente ? Il doit me semble t'il avoir des connaissances importantes sur la génération du langage qui lui sont intégrées avant l'apprentissage sur la génération d'image. Idem pour le son... Ou bien suis je dans l'erreur ?

Question 2

Dans le cas de la diffusion simple, le modèle n'est pas guidé. Il va uniquement générer une image appartenant à la distribution d'origine (aka d'apprentissage),

Dans le cas avec guidage, généralement du texte, le modèle va générer une image appartenant à la distribution d'origine des images labellisées avec ce texte (ou un texte donc sa représentation se trouve dans la même zone).

Généralement, on utilisera des éléments de NLP déjà prétrain pour faciliter l'apprentissage cependant l'état de l'art fait tout en même temps, c'est la multi-modalité : on apprend les images, le son, la langue, ...

Question 3

Merci pour votre réponse complète.

hunoutl[IDRIS] · Answer 1 · 2024-04-03T08:37:00+0000

Dans le cas de la diffusion simple, le modèle n'est pas guidé. Il va uniquement générer une image appartenant à la distribution d'origine (aka d'apprentissage),

Dans le cas avec guidage, généralement du texte, le modèle va générer une image appartenant à la distribution d'origine des images labellisées avec ce texte (ou un texte donc sa représentation se trouve dans la même zone).

Généralement, on utilisera des éléments de NLP déjà prétrain pour faciliter l'apprentissage cependant l'état de l'art fait tout en même temps, c'est la multi-modalité : on apprend les images, le son, la langue, ...

Données conceptuelles dans la génération d'image

Votre réponse

1 Réponse

Votre commentaire sur cette réponse

Catégories