0 votes
par dans 05 - Mathématiques, gradients everywhere !!!
Bonjour,

     Pour minimisez la quantité de paramètres à sauvegarder, il y a un tirage au hasard d'un petit nombre de données sur lesquelles seront fait les calculs. Le tirage se fait sans remise et le prochain tirage sera fait sur le jeu de données corrigées (données totales - celles déjà tirées). Ma question est pourquoi faire un tirage sans remise ? Comme il y a énormément de données, un tirage avec remise devrait avoir la même efficacité et est plus simple à gérer. La notion d'epoch n'aurait pas fondamentalement disparu avec la notion d'epoch moyen.

1 Réponse

0 votes
par Vétéran du GPU 🐋 (65.7k points)
sélectionné par
 
Meilleure réponse
Le sans-remise permet d'éviter l'overfitting lors de la descente de gradient en ne voyant qu'une seule fois chaque donnée (pour une epoch).

Si vous êtes sûr que l'information contenu dans chaque élément de votre dataset suit une loi uniforme et que votre batch est très grand (donc le dataset aussi) vous pourriez en effet faire avec remise. Cependant c'est plus difficile d'implémenter cette situation que de faire avec remise.
...