Attention à la terminologie !!
Une image en niveau de gris (kxmx1) ou une image en couleur RGB (kxmx3) sont toujours considérées comme des images 2D (quelquesoit le nombre de channel) : la convolution appliquée est donc une convolution 2D (le kernel se déplace seulement dans 2 dimensions).
Pour répondre à votre question : Avec un padding='SAME', le kernel RGB (n x n x 3) (lui effectivement en 3D) produira une image sortante (kxmx1).
Après, cependant, dans la couche de convolution, on définit le nombre de kernels/filtres (filtre = kernel). Par exemple f filtres. On obtiendra en sortie une image 2D (kxmxf).
(La convolution 3D, c'est pour les images de type image médicale IRM )