Les données sont au centre du machine learning, pour le meilleur et parfois pour le pire !
À travers cette nouvelle séquence, nous allons explorer la complexité des données et leur capacité
(ou non) à décrire le monde réel.
Les données brutes sont souvent décrites dans des espaces qui sont peu pratiques pour l’apprentissage. Il est souvent nécessaire que nos modèles transforment les données pour pouvoir apprendre les motifs qui vont les aider à réaliser leur tâche.
Cette transformation va être faite avec des technique de plongement ou embedding qui vont permettre de définir des espaces où les paramètres importants pour la tâches sont mieux décrits.
C’est la notion d’espace latent.
Pourquoi ces données sont-elles aussi importantes ?
Biaisées, erronées, manquantes ou trop nombreuses, les données sont facilement infernales…
Comment peuvent-elles représenter et décrire la réalité du monde physique ?
Comment les espaces latents et les techniques d’embedding aident les modèles à mieux apprendre ?