Dans le cas de la diffusion simple, le modèle n'est pas guidé. Il va uniquement générer une image appartenant à la distribution d'origine (aka d'apprentissage),
Dans le cas avec guidage, généralement du texte, le modèle va générer une image appartenant à la distribution d'origine des images labellisées avec ce texte (ou un texte donc sa représentation se trouve dans la même zone).
Généralement, on utilisera des éléments de NLP déjà prétrain pour faciliter l'apprentissage cependant l'état de l'art fait tout en même temps, c'est la multi-modalité : on apprend les images, le son, la langue, ...