0 votes
par dans 01 - Bases, concepts et histoire
reclassée par
Bonjour!

Je viens de commencer à suivre votre formation (excellente, d'ailleurs!) et je suis en train d'essayer de comprendre les notebooks attachés au premier cours.

Mes questions sont assez théoriques, mais j'aimerais quand même mieux comprendre le calcul du gradient de MSE et quels sont les pas intermédiaires pour trouver la formule 2/m...

Quelle est la différence entre la descente de gradient classique et par batch? Comment la dernière fait pour améliorer la première?

Quant aux illustrations vues en cours et vu que l'implémentation keras reste semblable, comment le réseau fait la différence entre sortir une régression ou l'étiquette d'une classe?

Quand on normalise avec X_norm = (X - X.mean(axis=0)) / X.std(axis=0), pourquoi les valeurs min et max ne restent pas entre -1 et 1? Cela ne pose pas souci au réseau?

Merci d'avance! Bonne journée!

Votre réponse

Votre nom à afficher (en option)
Vie privée : votre adresse de messagerie ne sera utilisée que pour l'envoi de ces notifications .
Vérification anti-spam
Pour éviter cette vérification à l'avenir, Connectez vous ou inscrivez vous.
...