0 votes
par dans Séquence 3 : TP
Bonjour,

Dans cet exercice, nous avons une données par image. Comment faire si on avait plusieurs panneaux à plusieurs endroits d'une image ? Comment pré-traiter les données ? Par exemple si on a des oiseaux sur une image du ciel et qu'il fallait les reconnaitre ou les compter ? Il faut d'abord détecter l'oiseau pour extraire une imagette, comment faire ?

Merci.

3 Réponses

0 votes
par Vétéran du GPU 🐋 (20.4k points)
sélectionné par
 
Meilleure réponse
Cela rentre dans le domaine de segmentation sémantique (quelque chose que nous verrons pas dans fidle). Nous l’abordons néanmoins dans le cours IPDL fourni par l’IDRIS (http://www.idris.fr/formations/ipdl/). Il y a les slides de cours et le TP3 (un notebook) fait de la segmentation sémantique.
+1 vote
par Vétéran du GPU 🐋 (8.6k points)
Dans l'exercice de classification présenté au moment de la question, il est probable qu'il faudrait découper l'image pour avoir une image par panneau.

Mais il est possible de faire de la détection d'objets dans une image "complexe".
+1 vote
par (5.9k points)
Pour résumer, sur ces questions deux approches existent :

- segmentation sémantique : on classifie chaque pixel indépendamment (on pourra en reparler à partir des auto-encodeurs) et à partir de là on peut générer si on le souhaite des découpes autour d'un groupe de pixel de la même classe

- détecteur + classifieur : on cherche à trouver les zones d'intérêt sur une image, on extrait ces zones, les transforme... puis on les classifie (exemple : R-CNN et ses suites Fast(er) RCNN, Mask RCNN...). On parle de two-stage classifier. Une variante les one-stage classifier (exemple : YOLO) effectue la détection et classification "en meme temps" sur l'ensemble de l'image.

 Avantage de la deuxième approche: moins couteux en acquisition des données
...