En fait la stochasticite (ie variabilite) du gradient est plutot une sous produit de la mise en batch, et ce sous produit a par la suite montre de la robustesse à se sortir des points "selle" (selle de cheval). Docn c'est la mise en batch qui reduit le nombre d'images (echantillons) qui sont passes en mode forward a travers le reseau et durant cette phase on stocke des elements qui servent à la backpropagation des gradients. Donc plus on a des batchs de petites dimensions plus on a une reduction des donnees a stocker dans la memoire GPU et donc on peut accomoder des reseaux de grandes profondeurs. Maintenant pour en revenir a la stochaticite, plus on a des batches pletits plus l'estimation de la moyenne des gradients sur chaque mini-batch va etre bruitee (1/sqrt(taille du batch)). Si on est trop bruite (atille trop petite) alors a chaque mini-batch on change de direction notablement, ce qui peut poser pbs, donc il y a un compromis entre reduction des batchs qui aident à entrainer des gros reseaux et trop de stochasticite qui irait dans l'autre sens (cf a ne pas faire converger l'algorithme de descente de gradient).
En esperant avoir ete clair