On a pas vraiment de stratégie pour la sélection de sous-datasets pour le k-fold ( en général on utilise cette technique lorsqu'on manque de données). Une chose à laquelle il faut faire attention c'est que le modèle puisse voir toute les classe pendant l'entraînement.
C'est particulièrement important pour la séparation train/test du dataset.
Cette question dépend beaucoup du dataset sur lequel on travail et de l'application du modèle. C'est faisable pour s'assurer une bonne répartition des classe pour un classifieur mais c'est plus compliqué lorsque les données sont du texte (en question and answering), des vidéos ou même simplement une combinaison de features extraites de données brutes.