0 votes
par dans 01 - Bases, concepts et histoire
edité
J'ai peut-être oublié ce qui a été dis, mais je ne ois pas à quoi ce theta correspond. C'est par rapport à ce terme que l'on semble dériver dans la suite du processus, j'imagine qu'il s'agit donc d'un paramètre important. J'ai pensé aux différents poids des différents neurones, mais comment calcule-t-on la dérivée dans ce cas ? si le réseau est grand, le calcul de cette dérivée risque de prendre un temps monstrueux non ? n_neurones*n_paramaètres*n_iterations

1 Réponse

+1 vote
par Vétéran du GPU 🐋 (48.7k points)
sélectionné par
 
Meilleure réponse
Les paramètres à optimiser
par
Merci pour la réponse, les paramètres à optimiser c'est à dire tous les poids de tous les neurones ? cela ne risque pas de mener à un temps de calcul du gradient extrêmement long ? puisqu'il faut à priori autant d'évaluations de la loss function qu'il y a de poids sur tous les neurones, ce qui peut être très élevé j'imagine non ? à moins qu'on utilise des méthodes d'optimisation sans gradient dans ces cas là ?
par Vétéran du GPU 🐋 (48.7k points)
Oui ce sont tous les poids et tous les biais. Effectivement ça fait un calcul assez long, mais pas vraiment beaucoup plus long que la prédiction par le réseau. pour des réseaux détaillées dans la session sur les maths pour le deep learning, le rétropropagation du gradient est deux fois plus longue que la prédiction. Il n'y a pas besoin d'autant d'évalutation de la loss qu'il n'y a de poids dans le réseau. Si on fait 1 prédiction, on peut mettre à jour tous les poids du réseau en même temps.
par (5.9k points)
En effet.
Selon les slides vous verrez ces paramètres appelés Theta ou W (pour weights)
...