0 votes
par dans Séquence 2
remontrée
La descente du gradient cherche un minimum local.

Pour la fonction RELU, remplacer la derivée qui est nulle pour les x>0 par une fonction linéaire avec un coefficient positif garantit aussi qu'on va atteindre un minimum local (dans la limite d'un pas faible)??

1 Réponse

0 votes
par Vétéran du GPU 🐋 (48.7k points)
 
Meilleure réponse
Pour la ReLU, la dérivée n'est pas nulle en x>0 elle vaut 1. Pour les négatifs elle vaut 0. C'est pourquoi il existe des variantes qui ont une pente dans les négatifs. Cela facilite l'apprentissage mais ne garantit pas l'unicité du minimum car cela ne rend pas la fonction de perte convexe. Mais comme on a une pente, on peut donc faire un apprentissage même dans les cas où x< 0. Pour la ReLu ce n'est pas possible mais ce n'est pas un problème en pratique car un autre exemple aura un x>0 donc on apprendra quand même.
par
Aaah, au temps pour moi, j'ai confondu RELU avec la fonction marche (0 pour x<0 et 1 pour x>0). J'avais en tête le perceptron où l'on remplace, je crois dans la descente de gradient, la derivée en x>0 (qui là est bien nulle) par une fonction linéaire?
par Vétéran du GPU 🐋 (48.7k points)
Maintenant on peut mettre n'importe quelle fonction d'activation dans un perceptron (sigmoide et relu généralement). Pour la formulation originelle du perceptron, il faudrait la reconsulter je ne suis plus sûr.
...