+1 vote
par dans Séquence 2
Dans la diapo 37/40, les trois premières couches convolutives ont des noyaux avec les mêmes hyperparamètres (3x3)
1) donc, si je comprends bien, en cas de sur apprentissage ont devrait obtenir les mêmes paramètres pour les trois kernels puisqu'il y'a pas de raison que statistiquement ça donne des choses différentes ?
2) Est-ce que le fait de ne pas sur-apprendre est suffisant pour que les kernels "regardent" des choses différentes (et qu'ils soient donc "suffisamment" différents au final) ?
Merci.

2 Réponses

0 votes
par Vétéran du GPU 🐋 (68.8k points)
sélectionné par
 
Meilleure réponse
1) Non, on peut très bien avoir du sur-apprentissage avec des kernels différents.

2) Non, on ne peut pas en être sûr. Néanmoins avec une initialisation différente aléatoire on peut s'attendre fortement à ce comportement
par
J'ai compris mon erreur de raisonnement : je considérais uniquement les kernels et pas le fait qu'ils sont connectés entre eux dans les dernières couches du réseau. Donc le réseau dans son ensemble va faire converger différemment les kernels, même en cas de hyper-surapprentissage. Merci.
0 votes
par Vétéran du GPU 🐋 (20.4k points)
Il est très important de comprendre que même si les kernels ont des hyperparamètres similaires, ils peuvent “apprendre” des choses différentes (même en sur-apprentissage). Le problème c’est que certains kernels peuvent apprendre le “bruit” d’un dataset. Si l’on prend l’exemple d’un classifieur de chat, un modèle bien entraîné va apprendre les caractéristiques d’une image d’un chat (les oreilles, la queue, les poils…), on peut vulgariser cela en disant que chaque kernel va apprendre une caractéristique (en pratique c’est un peu plus compliqué). Mais un modèle en sur-apprentissage va aussi apprendre du bruit propre au dataset, par exemple s’il y a un petit groupe de pixel noire en haut à gauche de plusieurs images de chat du dataset, il se peut que le modèle apprenne cela (donc certains kernels auront pour rôle de détecter ces tâches) et considère que c’est une caractéristique propre des images de chat.
...