[-1 1] ou [0 1] ça revient unpeu au meme pour le réseau. Il peut faire le décalage avec le biais et dans les deux cas on est dans une bonne région de notre fonction d'activation (i.e. une région où le gradient est pas trop petit). Pour la normalisation vs standardisation, un réseau de neurones peut faire les deux. Mais si on fait une standardisation ça crée une inter-dépendance sur les données, et c'est pas ouf ça.
C'est pour ça qu'on fait gaffe aussi quand on normalise. On a le droit mathématiquement de diviser par la norme 2 du vecteur, mais ça crée des dépendances entre les coordonnées qui n'ont aucun sens, donc on veut pas faire ça.