Dans le même genre de question (diapo 37/40) les trois premières couches convolutives ont des noyaux avec les mêmes hyperparamètres (3x3)
1) donc, si je comprends bien, en cas de sur apprentissage ont devrait obtenir les mêmes paramètres pour les trois kernels, y'a pas de raison que statistiquement ça donne des choses différentes ?
2) Est-ce que le fait de ne pas sur-apprendre est suffisant pour que les kernels "regardent" des choses différentes (et qu'il soit donc "suffisamment" différents) ?
Merci.