ASHA et rapidité de l'optimiseur ?

Question 1

Dans le cas du ASHA où on teste "un peu" plusieurs combinaisons d'hyper-paramètres

=> Est-ce que c'est pas conditionné par le fait d'avoir un optimiseur avec un assez fort learning rate ?

=> Parce que sinon on prend le risque d'éliminer des combinaisons d'hyper-param, qui auraient peut-être bien marché en testant un peu plus longtemps

Question 2

Effectivement il faut laisser un peu de temps au réseau de s'améliorer pour faire la différence entre une mauvaise configuration et une bonne config. Si on a pas laissé assez de temps, on pourra s'en rendre compte avec les courbes de loss (qui auront à peine diminuées au moment où ASHA intervient). C'est pour ça que c'est important de logger des métriques et de garder un oeil dessus.

Question 3

Le système de bracket de sha et asha se configure. On peut permettre un 1er bracket plus long pour éviter l'élimination de configuration peut performante en début d'apprentissage.
Ce n'est pas conditionné par un LR élevé.

Nathan[IDRIS] · Answer 1 · 2023-03-30T13:43:33+0000

commentée par hunoutl[IDRIS] Vétéran du GPU 🐋 (68.8k points) 31 mars 2023

ASHA et rapidité de l'optimiseur ?

Votre réponse

1 Réponse

Votre commentaire sur cette réponse

Catégories