0 votes
par dans Séquence 5
Pour la problématique de la représentativité des sous-datasets, est-ce qu'on pourrait imaginer calculer une espèce de distance entre notre dataset original et chaque sous-datasets ?

Comme un genre de trucs en N-dimensions ?

1 Réponse

0 votes
par (3.2k points)
sélectionné par
 
Meilleure réponse
On a pas vraiment de stratégie pour la sélection de sous-datasets pour le k-fold ( en général on utilise cette technique lorsqu'on manque de données). Une chose à laquelle il faut faire attention c'est que le modèle puisse voir toute les classe pendant l'entraînement.
C'est particulièrement important pour la séparation train/test du dataset.

Cette question dépend beaucoup du dataset sur lequel on travail et de l'application du modèle. C'est faisable pour s'assurer une bonne répartition des classe pour un classifieur mais c'est plus compliqué lorsque les données sont du texte (en question and answering), des vidéos ou même simplement une combinaison de features extraites de données brutes.
par
Merci !
...