Bonjour!
Je viens de commencer à suivre votre formation (excellente, d'ailleurs!) et je suis en train d'essayer de comprendre les notebooks attachés au premier cours.
Mes questions sont assez théoriques, mais j'aimerais quand même mieux comprendre le calcul du gradient de MSE et quels sont les pas intermédiaires pour trouver la formule 2/m...
Quelle est la différence entre la descente de gradient classique et par batch? Comment la dernière fait pour améliorer la première?
Quant aux illustrations vues en cours et vu que l'implémentation keras reste semblable, comment le réseau fait la différence entre sortir une régression ou l'étiquette d'une classe?
Quand on normalise avec X_norm = (X - X.mean(axis=0)) / X.std(axis=0), pourquoi les valeurs min et max ne restent pas entre -1 et 1? Cela ne pose pas souci au réseau?
Merci d'avance! Bonne journée!