Vous semblez mélanger plusieurs choses...
Vous devez analyser vos données avant de faire un modèle. Le minimum, c'est de faire moyenne et variance sur chaque caractéristique.
Si vous avez trop de caractéristique (ce qui semble être votre cas) c'est effectivement une bonne idée de réduire leur nombre avant d'entrer dans le modèle. L'usage d'une PCA est correcte. Suivant votre quantité d'échantillons et votre puissance de calcul disponible vous pouvez ou pas faire la PCA sur l'ensemble de vos données ou sur un échantillonnage représentatif (qui respecte la distribution de vos données).
Après la PCA vous conserver uniquement les nouvelles dimensions qui représente une majorité de l'information >80-90%. Si il y en a toujours trop (vos caractéristiques sont très orthogonales entre elles) il faudra trouver une autre méthode ou se satisfaire d'une perte très importante d'information.
Pour aller plus loin je vous invite à suivre un cours en analyse de donnée et machine learning (ce qui n'est pas fidle)