0 votes
par (170 points) dans Séquence 5
Bonjour, quelles sont les méthodologies et informations qui vous semblent importantes pour gérer des déséquilibres dans les données, notamment dans des jeux de données complexes et hétérogènes ?

Je pense aux déséquilibres de classes, mais aussi aux déséquilibres de "contexte". Par exemple, pour identifier quelque chose sur des images, comment équilibrer les données selon nuit/jour ; couleur/noir et blanc ; arrière-plan ; ...

1 Réponse

0 votes
par Vétéran du GPU 🐋 (20.4k points)
sélectionné par
 
Meilleure réponse
Cela peut s’avérer très compliqué. Vous voulez savoir comment identifier les déséquilibres dans un dataset ou savoir comment agir sur ces déséquilibres ? Pouvez-vous donner un cas concret pour que notre réponse soit plus précise ?
par (170 points)
Je souhaite surtout savoir comment agir sur ces déséquilibres et préparer les données d'entraînement au mieux pour améliorer la qualité du modèle.

Le cas concret sur lequel je travaille : j'essaie d'identifier des espèces d'animaux sur des images de pièges photos. Il y a des images de différents partenaires, donc pris dans des contextes très différents : en forêt, dans des passages à faune sous ou sur des infrastructures de transport, dans des champs, dans des zones géographiques variées, en journée, en nuit avec ou sans flash, etc.
par Vétéran du GPU 🐋 (20.4k points)
+2
La chose la plus simple que vous pouvez faire dans ce cas, c’est d’assurer que chaque classe (animaux) soit équilibré dans chaque sous-ensemble (nuit, flash…). Il ne faut surtout pas qu’il y ait une surreprésentation des classes dans un sous-ensemble sinon le modèle va faire l’association : sous-modèle=classe surreprésenté (photo nuit=loup par exemple).
Ensuite si vous n’avez pas assez de données pour ça, il faut faire de la data-augmentation (on verra cela dans les prochaines séances).
par (170 points)
Merci !
...