0 votes
par dans 06 - Méthodologie des modèles/apprentissage + fine-tuning + TP
edité par

Bonjour,

Je suis entrain d'élaborer un modèle de regression linéaire en machine learning. Les données du dataset n'ont pas les mêmes unités et il y a des écarts parfois entre ces données. Mon dataset comporte 341 variables indépendantes et une variable dépendante. Le but est de trouver un mdèle de RLM dont les coefficients des varibles explicatives y compris les signes de desdites varibles les plus importantes de ce modèle seront interpretés à la fin. Pour commencer l'élaboration, j'ai déterminé les les coefficents de correlation personr entre les 341 varibles indépendates et la varible dépendante pour retenir les 24 varibles indépendantes ayant une bonne correlation avec la variable dépendante.

- Ma question est donc de savoir s'il faut normaliser ou standardiser forcement mes données du dataset avant de les separer en train_set en test_set - De plus, je voudrais savoir comment valider mon modèle de regression que je viens d'établir -Toute personne capable de jetter un coup d'oeil à mon modèle est la bienvenue. Les données du dataset ne sont pas normalisées ou standardisées dans le modèle que j'ai élaboré. voici les correlations de mon modèle : r2_score(y_train, y_pred_train)   = 0.5935609804485313; r2_score(y_test, y_test) = 1.0le modèle a été élaboré avec LinearRegression()

1 Réponse

+1 vote
par
sélectionné par
 
Meilleure réponse

Pour la première partie il peut aussi être intéressant de regarder les coefficients de corrélation entre les variables (matrice de confusion), parfois quand deux variables indépendantes sont fortement corrélées ça peut aider le modèle d'en supprimer une. Vous pouvez aussi tenter d'utiliser PCA avant la régression linéaire.

Les variables n'ayant pas les mêmes unités et avec de grand écarts de valeur, oui il faut normaliser/standardiser. 

r2_score(y_test, y_test) = 1.0 : je pense qu'il y a un problème, il faut comparer avec y_pred_test

par
Bonjour,

Franchement grand merci pour votre réposnse.


Je voudrais avoir une collaboration avec vous pour des recherches.

vous pouvez m'écrire par gautier.kbj@gmail.com

Merci
par
J'établis un modèle de regression de linéaire mais je souhaite réduire le nombre de features avant d'établir ce modèle de regression ML.

Pour faire un PCA, dois-je utiliser toutes les varibles de mon dataset ou bien quelles varibles utilisées ?
...