Fonction activation RELU et descente de gradient

Question 1

La descente du gradient cherche un minimum local.

Pour la fonction RELU, remplacer la derivée qui est nulle pour les x>0 par une fonction linéaire avec un coefficient positif garantit aussi qu'on va atteindre un minimum local (dans la limite d'un pas faible)??

Question 2

Pour la ReLU, la dérivée n'est pas nulle en x>0 elle vaut 1. Pour les négatifs elle vaut 0. C'est pourquoi il existe des variantes qui ont une pente dans les négatifs. Cela facilite l'apprentissage mais ne garantit pas l'unicité du minimum car cela ne rend pas la fonction de perte convexe. Mais comme on a une pente, on peut donc faire un apprentissage même dans les cas où x< 0. Pour la ReLu ce n'est pas possible mais ce n'est pas un problème en pratique car un autre exemple aura un x>0 donc on apprendra quand même.

Question 3

Aaah, au temps pour moi, j'ai confondu RELU avec la fonction marche (0 pour x<0 et 1 pour x>0). J'avais en tête le perceptron où l'on remplace, je crois dans la descente de gradient, la derivée en x>0 (qui là est bien nulle) par une fonction linéaire?

Question 4

Maintenant on peut mettre n'importe quelle fonction d'activation dans un perceptron (sigmoide et relu généralement). Pour la formulation originelle du perceptron, il faudrait la reconsulter je ne suis plus sûr.

Nathan[IDRIS] · Answer 1 · 2022-11-24T13:16:20+0000

commentée par anonyme 24 novembre 2022

commentée par Nathan[IDRIS] Vétéran du GPU 🐋 (48.7k points) 24 novembre 2022

Fonction activation RELU et descente de gradient

Votre réponse

1 Réponse

Votre commentaire sur cette réponse

Catégories