0 votes
par dans Séquence 1
reclassée par
Puisque les données sont de toutes façons ponderées par des fonctions linéaires; pourquoi faut il les normaliser avant alors que le a et le b du: ax + b peuvent produire un effet similaire? Est-ce pour faciliter/accélerer l'apprentissage? Pour ne pas qu'une "grand paramètre" soit biaisé?

2 Réponses

0 votes
par Vétéran du GPU 🐋 (48.7k points)
sélectionné par
 
Meilleure réponse
Pour des raisons de descente de gradient (plus de détail lors de la séquence 4). En gros si les données ne sont pas normalisées, la valeur avant la fonction d'activation est trop importante, donc on se retrouve à un endroit où elle a une pente très faible. le gradient est donc très faible et le réseau n'apprend pas. De manière générale, il faut toujours que les données soient normalisées pour qu'un réseau de neurones puisse apprendre.
par Vétéran du GPU 🐋 (68.8k points)
des données normalisées permettent de stabiliser l'apprentissage. C'est plus simple d'apprendre un domaine quand celui-ci comporte peu de variance.
0 votes
par
Si les données ne sont pas normalisées, les coefficients et le biais peuvent devenir beaucoup trop grand et peuvent même dépasser la valeur max codable
par Vétéran du GPU 🐋 (68.8k points)
Votre réponse recoupe celle de @Nathan. Effectivement, la normalisation a comme effet de contenir la taille des variables et évite de casser l'ordinateur.
...