0 votes
par dans Séquence 16

Est-ce que c'est la même chose ?

Ou bien le weight decay c'est simplement réduire certains poids ? Et non pas les mettre à 0

2 Réponses

0 votes
par Vétéran du GPU 🐋 (48.7k points)
sélectionné par
 
Meilleure réponse
Exact dans le weight decay, on ne les met pas à 0, on leur donne une tendance à diminuer, un peu comme si ils se désintégraient comme une particle en physique nucléaire, et que la valeur du weight decay ferait le lien avec la demi-vie de la particule.

Dans ce cas là, en plus de la désintégration on a une autre force avec la descente de gradient. Donc le poids ne va pas atteindre 0 mais être réduit par rapport à un optimiseur sans weight decay.

Le weight decay est système très semblable à la régularisation L2 mais appliqué à un autre moment, et qui semble un peu meilleur par l'expérience.

L'autre cas dont tu parles, le dropout, permet au réseau de ne pas mettre tous ses oeufs dans le même panier et ne dépendre que d'un petit sous-ensemble de ses poids (ce qui pousse à l'overfitting)
par
C'est plus clair, merci beaucoup !
0 votes
par Vétéran du GPU 🐋 (11.2k points)
Très bonne remarque la regularisation L2 et le weight decay ont exactement la meme finalité et le meme procédé.... sauf que le weight decay est mieux car appliqué directement lors de l'étape de l'opitmiseur à tous les poids alors que la regularisation est appliqué au moment de la calcul de loss et diffusé aux poids du modèle avec la back propoagation (mois souple du coup).
...