Bonjour,
On essaie de ramener l'ensemble des données autour de la même distribution.
On peut le faire en travaillant les images individuellement pour simplifier la tache au modèle (éviter les écarts de contrastes fort par exemple). Il s'agit plus d'un travail "d'amélioration" des données, de pré-traitement des données.
Au sein du modèle, des considérations statistiques sont présentes pour simplifier la descente de gradient et permettre au modèle d'apprentre sur l'ensemble des caractéristiques d'une donnée. Avec des images RGB, nous avons de la chance, les caractéristiques sont comprises entre 0 et 255 et on effectue simplement un changement d'échelle. Mais imaginons une donnée différente avec deux caractéristiques sur des échelles complètement différente, alors à ce moment ramener les caractéristiques sur la meme échelle va permettre de faire un usage égale de chacune.