Pour résumer, sur ces questions deux approches existent :
- segmentation sémantique : on classifie chaque pixel indépendamment (on pourra en reparler à partir des auto-encodeurs) et à partir de là on peut générer si on le souhaite des découpes autour d'un groupe de pixel de la même classe
- détecteur + classifieur : on cherche à trouver les zones d'intérêt sur une image, on extrait ces zones, les transforme... puis on les classifie (exemple : R-CNN et ses suites Fast(er) RCNN, Mask RCNN...). On parle de two-stage classifier. Une variante les one-stage classifier (exemple : YOLO) effectue la détection et classification "en meme temps" sur l'ensemble de l'image.
Avantage de la deuxième approche: moins couteux en acquisition des données