Il ya plusieurs intérêts. Le premier est de calculer sur plusieurs données en même temps. En exploitant la parallélisation du calcul on gagne en temps de calcul.
Comme on fait une moyenne, ça permet également d'être moins sensibles aux outliers. Si on ne prend qu'un exemple à la fois et que cet exemple n'est pas correct, alors l'apprentissage sera contre productif.
On est limité par la taille du batch par la mémoire. Et on veut aussi ne pas perdre toutes les spécificités de nos exemples. La moyenne a tendance à perdre l'information, ce qui est bon dans le cas des outliers, mais on ne veut pas tout perdre non plus.