A partir du moment où vous faites correspondre les dimensions de vos données d'entrées et des dimensions des noyaux de convolutions, cela peut fonctionner. Bien sur les CNNs sont plus efficaces lorsque les caractéristiques à extraire peuvent être présente n'importe où dans la données, avec des structures...
Un exemple : vous pourriez transformer une séquence audio en une matrice(spectrogramme) avec une FFT et utiliser ce spectrogramme pour déterminer le genre musical, des intentions dans la voix... Il ne s'agit pas forcément de la meilleur solution mais c'est un exemple qui fonctionne.