Pour des raisons de descente de gradient (plus de détail lors de la séquence 4). En gros si les données ne sont pas normalisées, la valeur avant la fonction d'activation est trop importante, donc on se retrouve à un endroit où elle a une pente très faible. le gradient est donc très faible et le réseau n'apprend pas. De manière générale, il faut toujours que les données soient normalisées pour qu'un réseau de neurones puisse apprendre.