0 votes
par dans 14 - Diffusion Model (DM)
Il y a me semble t'il une question non abordée dans la génération des images, comment le réseau de neurones apprend t'il ce que l'image représente ? Il doit me semble t'il avoir des connaissances importantes sur la génération du langage qui lui sont intégrées avant l'apprentissage sur la génération d'image. Idem pour le son... Ou bien suis je dans l'erreur ?

1 Réponse

0 votes
par Vétéran du GPU 🐋 (68.8k points)
sélectionné par
 
Meilleure réponse
Dans le cas de la diffusion simple, le modèle n'est pas guidé. Il va uniquement générer une image appartenant à la distribution d'origine (aka d'apprentissage),

Dans le cas avec guidage, généralement du texte, le modèle va générer une image appartenant à la distribution d'origine des images labellisées avec ce texte (ou un texte donc sa représentation se trouve dans la même zone).

Généralement, on utilisera des éléments de NLP déjà prétrain pour faciliter l'apprentissage cependant l'état de l'art fait tout en même temps, c'est la multi-modalité : on apprend les images, le son, la langue, ...
par
Merci pour votre réponse complète.
...