Exact dans le weight decay, on ne les met pas à 0, on leur donne une tendance à diminuer, un peu comme si ils se désintégraient comme une particle en physique nucléaire, et que la valeur du weight decay ferait le lien avec la demi-vie de la particule.
Dans ce cas là, en plus de la désintégration on a une autre force avec la descente de gradient. Donc le poids ne va pas atteindre 0 mais être réduit par rapport à un optimiseur sans weight decay.
Le weight decay est système très semblable à la régularisation L2 mais appliqué à un autre moment, et qui semble un peu meilleur par l'expérience.
L'autre cas dont tu parles, le dropout, permet au réseau de ne pas mettre tous ses oeufs dans le même panier et ne dépendre que d'un petit sous-ensemble de ses poids (ce qui pousse à l'overfitting)