0 votes
par dans Séquence 3

2 Réponses

0 votes
par Vétéran du GPU 🐋 (68.8k points)
sélectionné par
 
Meilleure réponse
Un batch = 1 update du réseau

Un epochs = l'ensemble du dataset est passé par le réseau

On souhaite donc avoir un certain nombre de mise à jour pour que l'apprentissage avance.
0 votes
par (5.9k points)
Plusieurs raisons à ça.

Premièrement d'un point de vue calculatoire, essayer de faire la descente de gradient sur l'ensemble des données en même temps n'est généralement pas possible. Essayez et vous tomberez sur la bien connue erreur "Cude out of memory".

Deuxièmement, la taille de batch a un effet de régularisation lors de l'entraînement qui permet d'améliorer la qualité du modèle en jouant sur le dilemne biais/variance.
...