Bonjour,
Si vous avez de la cohérence dans les tâches que vous ajoutez dans vos images c'est normal que le modèle ne les "filtre" pas car à un certains niveau il va les considérer comme faisant parti de l'image (une caractéristique de celle-ci).
Si vous fournissez au modèle uniquement des photos prisent depuis une lentille disposant d'un défaut optique, il reconstruira uniquement des images contenant ce même défaut (au plus proche possible). Si vous demandez à un enfant de dessiner un cheval en lui montrant que des images de zèbres, il vous le dessinera avec des rayures.
Tout va dépendre en grande partie de votre dataset d'apprentissage.
L'exemple donné dans le TP montre l'application pour le débruitage mais ce n'est qu'un cas d'usage possible. Même si on ne fait 'que' enlever le bruit, en réalité on compresse de l'information dans l'espace latent, une information qui pourrait être réutilisé pour d'autres tâches.
Pour votre expérience, je pense qu'en travaillant votre dataset et effectivement en jouant sur l'espace latent (et d'autres hyperparamètres...) vous devriez pouvoir vous en sortir.