0 votes
par (600 points) dans Séquence 6 : TP
reclassée par
Peut-être que ça a déjà été abordé, mais est-ce pertinent de vouloir multiplier notre dataset de données séquentielles en découpant plusieurs fois pour obtenir bien plus de datasets qu'on pourrait en avoir initialement.

Par exemple, avec une séquence de 100 valeurs, on pourrait faire 20 séquences de 5 points, mais ceci est arbitraire. On peut aussi décaler le départ de notre séquence et avoir 4x 20 séquences de 5 points en partant de 0, 1, 2, et 3

Est-ce pertinent? Si oui, j'imagine qu'il y a des méthodes pour le faire automatiquement parce que ce ne serait pas pertinent de multiplier par 5 notre volume de données alors que c'est juste un décalage d'indice dans notre séquence originelle. Est-ce qu'on peut optimiser la mémoire dans ce genre de cas?

1 Réponse

0 votes
par
sélectionné par
 
Meilleure réponse
Si vous n'avez pas beaucoup de données, il peut être intéressant de faire cela.

Vous pouvez facilement découper votre dataset de cette manière avec les librairy usuel Python.
par (600 points)
Est-ce que vous avez un mot clé pour trouver de telles fonctions? Parce que sans mot clés pertinent, c'est difficile de trouver la fonction, même si elle existe.
par
si votre dataset est un vecteur (100, 1) vous pouvez avec Pandas dans une boucle découper vos colonnes : dataset[0:4] puis au fur et a mesure décaler afin d'obtenir tout les intervalles de longueur 5, ensuite il faudra sauvegarder ces découpages dans un nouveau dataset de forme (95,5)
par (600 points)
Le faire à la main oui, mais je pensais à une méthode automatique qui fait une sorte de wrapper et permet de faire des liens symboliques au lieu de nous obliger à dupliquer inutilement la mémoire.
par
Certainement qu'une méthode existe, mais elle fera plus ou moins la même chose.
...