Distance pour évaluer la représentativité de sous-datasets

1 Réponse

répondu par Pierre[IDRIS] (3.2k points) 15 décembre 2022
sélectionné par hunoutl[IDRIS] 15 décembre 2022

Meilleure réponse

On a pas vraiment de stratégie pour la sélection de sous-datasets pour le k-fold ( en général on utilise cette technique lorsqu'on manque de données). Une chose à laquelle il faut faire attention c'est que le modèle puisse voir toute les classe pendant l'entraînement.
C'est particulièrement important pour la séparation train/test du dataset.

Cette question dépend beaucoup du dataset sur lequel on travail et de l'application du modèle. C'est faisable pour s'assurer une bonne répartition des classe pour un classifieur mais c'est plus compliqué lorsque les données sont du texte (en question and answering), des vidéos ou même simplement une combinaison de features extraites de données brutes.

commentée par anonyme 15 décembre 2022

Distance pour évaluer la représentativité de sous-datasets

Votre réponse

1 Réponse

Votre commentaire sur cette réponse

Catégories