+2 votes
par (1.3k points) dans Séquence 1
Pour ce type de modèles, quelle est la taille max du vecteur d'entrée, en nombre de valeurs ?

2 Réponses

+2 votes
par (3.1k points)
sélectionné par
 
Meilleure réponse
Pour réduire la taille du vecteur d'entrée (un échantillon), il est utile de faire du *feature engineering* c'est à dire de sélectionner les éléments les plus pertinents ou de combiner des éléments entre eux. Cela peut être fait manuellement ou semi automatiquement (voir l'analyse en composantes principales).
par (1.3k points)
Hmmm très intéressant. Dans mon cas ce sont les aminoacides d'une protéine. Du coup l'idée serait de faire des groupes d'aminoacides plutot que de les rentrer 1 par 1 si je comprends bien ?
par (3.1k points)
Je ne connais pas le domaine, donc je ne sais pas si le regroupement à du sens. Il y a peut-être des notations plus condensée que d'autres ?
Je pense à SMILES (https://en.wikipedia.org/wiki/Simplified_molecular-input_line-entry_system) - mais il faudra probablement attendre la session sur les *transformer* pour en profiter - ce sont des modèles très adéquats pour de longues séquences.
par (1.3k points)
Eheh, SMILES je m'en sers pour l'autre côté, sur les molécules chimiques qui sont transformées. Pour les protéines, pour l'instant je fais plutôt de l'alignement (type mmseq) mais ça a tendance à complexifier parfois.
En fait SMILES sur les protéines ça serait énorme ^^
0 votes
par Vétéran du GPU 🐋 (48.7k points)
En soit y a pas de limite, si ce n'est la taille de la mémoire. Mais par contre si le vecteur est trop grand, le réseau va devoir apprendre à reconnaître les redondances et va devoir se dépatouiller parmi un ensemble de patterns qui est exponentiellement plus grand. Donc en pratique il faut faire attention à ne pas avoir des dimensions trop grandes.
par (1.3k points)
Ok :-) Parce que j'ai un cas d'application pratique ou on est sur plusieurs milliers de valeurs en entrée.
par Vétéran du GPU 🐋 (68.8k points)
Généralement, pour optimiser la performance calculatoire, on essaye d'apprendre uniquement sur les features qui apporte de l'information et on enlève les redondances
par (1.3k points)
Je vois. Dans mon cas, chaque valeur sont en fait des vecteurs de binaires du type (0,1,0,0,...) ou (0,0,1,0,...).
...