0 votes
par dans Séquence 4 : TP
Apprentissage -> Pas bien compris pourquoi le stochastique réduit la conso de mémoire ?
Est-ce que cela réduit le nombre de dérivées (poids + biais) impliquées lors de la backpropagation ?

1 Réponse

+1 vote
par
sélectionné par
 
Meilleure réponse
En fait la stochasticite (ie variabilite) du gradient est plutot une sous produit de la mise en batch, et ce sous produit a par la suite montre de la robustesse à se sortir des points "selle" (selle de cheval). Docn c'est la mise en batch qui reduit le nombre d'images (echantillons) qui sont passes en mode forward a travers le reseau et durant cette phase on stocke des elements qui servent à la backpropagation des gradients. Donc plus on a des batchs de petites dimensions plus on a une reduction des donnees a stocker dans la memoire GPU et donc on peut accomoder des reseaux de grandes profondeurs. Maintenant pour en revenir a la stochaticite, plus on a des batches pletits plus l'estimation de la moyenne des gradients sur chaque mini-batch va etre bruitee (1/sqrt(taille du batch)). Si on est trop bruite (atille trop petite) alors a chaque mini-batch on change de direction notablement, ce qui peut poser pbs, donc il y a un compromis entre reduction des batchs qui aident à entrainer des gros reseaux et trop de stochasticite qui irait dans l'autre sens (cf a ne pas faire converger l'algorithme de descente de gradient).

En esperant avoir ete clair
par (120 points)
Merci bcp pour la réponse. C'est très clair :)
...