Quand on parle d'apprentissage de réseaux de neurones, on utilise des méthodes de descente de gradient pour trouver les paramètres, malheureusement on n'est pas capable d'utiliser la descente de gradient pour trouver la taille. Du coup, la recherche de la taille optimal du kernel est considéré comme de l'optimisation d'hyper-paramètres : ie. on va entrainer plusieurs réseaux de neurones avec différents valeurs de taille du kernel et on retiendra la meilleure valeur.