0 votes
par dans 01 - Bases, concepts et histoire
Est ce que le ration 80/20% est une norme? Certain publications précisent un ratio 90/10.

En BioScience, certaines donnée peuvent être absentes: Faut il les enlever?

4 Réponses

0 votes
par (5.9k points)
sélectionné par
 
Meilleure réponse
Le choix du ratio de répartition des données d'entraînement et de test, tel que 80/20% ou 90/10%, dépend de la taille et de la diversité du jeu de données. Avec un petit ensemble de données variées, un ratio favorisant davantage l'entraînement (comme 90/10) peut être utile. Cependant, il est crucial d'avoir un ensemble de test suffisamment conséquent pour une évaluation fiable. Dans le cas contraire, comme dans un scénario extrême avec seulement deux échantillons de test pour une classification binaire, le succès de l'évaluation pourrait n'être dû qu'à la chance.
+1 vote
par
Pour la 2ème question, ça dépend beaucoup. Si les données absentes peuvent biaiser les résultats alors il est conseillé de les enlever cependant il est important d'avoir suffisamment de données et suffisamment diverses donc il ne faut pas supprimer trop de données et supprimer seulement les moins pertinentes en vue des données absentes.
0 votes
par
Le ratio 80/20% est un peu arbitraire. Ca dépend principalement de la quantité de donnée, si vous n'avez pas beaucoup de donnée, il est conseillé d'augmenter le pourcentage du training à 90% car ça reste la partie la plus importante qui permet d'entraîner le modèle
0 votes
par
edité
Pas vraiment d'accord sur le fait que si le nombre de donnees est plus faible on passerait a 90/10 au lieu de 80/20; il est d'usage de passer a 90/10 voir 95/5 lorsqu'on a beaucoup de donnees; lorsque le nombre de donnees est reduit, il vaut mieux descendre a 70/30 car l'espace de donnees a tester gagne en importance (d'autant plus que de toute maniere la validation croisee aidera puisque toutes les donnees seront vues et entrainees). Le choix vient aussi avec l'experience et la nature des donnees, il n'y a pas de formule magique, et ce choix est presque un detail, relatif a tous les autres aspects a prendre en compte. De toute maniere, que ce soit 70/30, 80/20, ou 90/10, ce qui donnera un bon modele sera la quantite et la qualite des donnees, d'ou l'interet de choisir vraiment bien son approche et sur quelle architecture de modele se lancer.
...