Il est très important de comprendre que même si les kernels ont des hyperparamètres similaires, ils peuvent “apprendre” des choses différentes (même en sur-apprentissage). Le problème c’est que certains kernels peuvent apprendre le “bruit” d’un dataset. Si l’on prend l’exemple d’un classifieur de chat, un modèle bien entraîné va apprendre les caractéristiques d’une image d’un chat (les oreilles, la queue, les poils…), on peut vulgariser cela en disant que chaque kernel va apprendre une caractéristique (en pratique c’est un peu plus compliqué). Mais un modèle en sur-apprentissage va aussi apprendre du bruit propre au dataset, par exemple s’il y a un petit groupe de pixel noire en haut à gauche de plusieurs images de chat du dataset, il se peut que le modèle apprenne cela (donc certains kernels auront pour rôle de détecter ces tâches) et considère que c’est une caractéristique propre des images de chat.