Le sur-apprentissage est par définition le fait que la machine apprend "trop bien" sur le dataset d'entraînement et lorsque confronté à de nouvelles données, on se rend compte que la machine est nettement moins bon. Et tu ne peux l'observer que si tu as des données en dehors de celle d'entraînement, ie. le testing.