+1 vote
par dans Séquence 5
Pourquoi cette méthode est adaptée pour les "petits" ensembles de données ?

En effet, si on divise ce set en k=3 sous-ensembles, ces sets sont encore plus petits, générant ainsi encore plus d'instabilité, non ?

2 Réponses

0 votes
par Vétéran du GPU 🐋 (48.7k points)
 
Meilleure réponse
On privilégie les petits datasets pour cette méthode, car elle demande énormément de calcul étant donné qu'on va faire l'apprentissage plusieurs fois (voire beaucoup selon la valeur de k). En soit on pourrait tout à fait le faire sur des datasets plus grands mais c'est pas raisonnable.

La deuxième raison c'est qu'un gros dataset est (généralement) plus diversifié et plus représentatif de la distribution latente des données donc la manière dont le dataset est découpé importe moins. Un petit dataset quand il sera découpé fera apparaître plus de biais parce qu'il est petit, donc c'est plus intéressant de faire la k-fold, pour mesurer la qualité de notre réseau indépendamment de ça.
0 votes
par
Je crois que c'est parce que chaque donnée d'entrée servira forcément au moins 1 fois en test, 1 fois en validation et 1 fois en train

Contrairement à du hold-out où 1 entrée donnée servira soit de test, soit de train, soit de validation (mais jamais les 3)
...