0 votes
par (600 points) dans Séquence 11
reclassée par
Je n'ai pas bien compris la slide 21. On indique que c'est mieux de compacter, mais pour bien discerner les categories, est-ce qu'il ne vaut pas mieux justement bien séparer les groupes? On va avoir un overlap si on compresse et donc plus d'erreur dans la classification non?

1 Réponse

+1 vote
par Vétéran du GPU 🐋 (48.7k points)
sélectionné par
 
Meilleure réponse
De gros vecteurs impliquent de gros réseaux difficiles à entraîner. De manière générale les réseaux de neurones s'en sortent assez mal sur les données creuses, donc on essaie de compresser (forcément avec pertes), si possible en minimisant au maximum l'overlap. C'est un compromis entre le niveau de compression et les pertes engendrées.
par (600 points)
Étant donné qu'on a en fait beaucoup plus de dimension que la représentation de la réalité, en quoi une distance dans ce graphe indique une proximité ou un éloignement réel pour une ou plusieurs dimensions?
par Vétéran du GPU 🐋 (48.7k points)
+1
Les distances c'est un peu une propriété qu'on cherche à reproduire dans les espaces latents. c'est un peu ce qu'on fait aussi avec le traitement du langage, on peut mesurer les ressemblances entre deux mots en regardant leurs représentations latentes respectives.
On veut qu'un espace latent traduise le sens et la sémantique de la donnée

par ailleurs, j'ai pas compris ce que tu voulais dire par là "étant donné qu'on a en fait beaucoup plus de dimension que la représentation de la réalité"
...