0 votes
par dans Séquence 16
Dans le cas du ASHA où on teste "un peu" plusieurs combinaisons d'hyper-paramètres

=> Est-ce que c'est pas conditionné par le fait d'avoir un optimiseur avec un assez fort learning rate ?

=> Parce que sinon on prend le risque d'éliminer des combinaisons d'hyper-param, qui auraient peut-être bien marché en testant un peu plus longtemps

1 Réponse

0 votes
par Vétéran du GPU 🐋 (48.7k points)
sélectionné par
 
Meilleure réponse
Effectivement il faut laisser un peu de temps au réseau de s'améliorer pour faire la différence entre une mauvaise configuration et une bonne config. Si on a pas laissé assez de temps, on pourra s'en rendre compte avec les courbes de loss (qui auront à peine diminuées au moment où ASHA intervient). C'est pour ça que c'est important de logger des métriques et de garder un oeil dessus.
par Vétéran du GPU 🐋 (68.8k points)
Le système de bracket de sha et asha se configure. On peut permettre un 1er bracket plus long pour éviter l'élimination de configuration peut performante en début d'apprentissage.
Ce n'est pas conditionné par un LR élevé.
...