0 votes
par dans Séquence 4
Pour le calcul des dérivées du risque empirique, durant la phase "backward", lorsqu'il y a des étapes de max pooling et de dropout, est-ce qu'on est d'accord que c'est juste que ça met à 0 certaines des dérivées ?

1 Réponse

0 votes
par
sélectionné par
 
Meilleure réponse
je viens de voir la rediffusion de la séquence 5 où l'on répond positivement à ma question pour le dropout mais pour le max pooling ce n'était pas très clair...

Je pense par exemple si on fait un max pooling sur une fenêtre 2*2 on sélectionne un et un seul pixel sur les 4 et il y a donc 3 pixels qui ne sont pas pris en compte et c'est à eux que je pense pour dire de mettre à 0 les érivées
par
+1
Oui effectivement ça revient à mettre la dérivée à 0 pour le max pooling (les points qui ne sont pas le max)
voir https://towardsdatascience.com/forward-and-backward-propagation-of-pooling-layers-in-convolutional-neural-networks-11e36d169bec

Pour une image on a pas mal de dérivées à 0 donc mais sur un batch de plussieurs images la moyenne des gradients qui met à jour les poids couvrent une part importantes des paramètres du réseaux à chaque itérations d'apprentissage.
par
plus  la convolution qui diffuse les dérivées non nulles sur les poids des kernels... Finalement ce qui peut parraitre comme un gruyère au début est pas mal comblé à la fin... Les gradients s'appliquent un peu partout.
...