0 votes
par dans 06 - Méthodologie des modèles/apprentissage + fine-tuning + TP
Bonjour à tous

Je voudrais savoir comment faire un PCA avant une regression linéaire

Mon dataset contient une variable dépendante et 341 variables indépendantes.

Donc je souhaite savoir si je dois utiliser tout le dataset ou uniquement les varibles indépendantes pour reduire les dimensions de mes features avant la regression linéaire

Merci

1 Réponse

0 votes
par Vétéran du GPU 🐋 (66.1k points)
 
Meilleure réponse
Vous semblez mélanger plusieurs choses...

Vous devez analyser vos données avant de faire un modèle. Le minimum, c'est de faire moyenne et variance sur chaque caractéristique.

Si vous avez trop de caractéristique (ce qui semble être votre cas) c'est effectivement une bonne idée de réduire leur nombre avant d'entrer dans le modèle. L'usage d'une PCA est correcte. Suivant votre quantité d'échantillons et votre puissance de calcul disponible vous pouvez ou pas faire la PCA sur l'ensemble de vos données ou sur un échantillonnage représentatif (qui respecte la distribution de vos données).

Après la PCA vous conserver uniquement les nouvelles dimensions qui représente une majorité de l'information >80-90%. Si il y en a toujours trop (vos caractéristiques sont très orthogonales entre elles) il faudra trouver une autre méthode ou se satisfaire d'une perte très importante d'information.

Pour aller plus loin je vous invite à suivre un cours en analyse de donnée et machine learning (ce qui n'est pas fidle)
...