Les données sont au centre du machine learning, pour le meilleur et parfois pour le pire ! A travers cette nouvelle séquence, nous allons explorer la complexité des données et leur capacité (ou non) à décrire le monde réel.
Ensuite, nous nous intéresserons aux données creuses et nous verrons comment les techniques d’Embedding ont pu révolutionner le traitement du langage naturel.
Enfin, nous définirons précisement l’espace latent comme outil de représentation des données à très haute dimension
Pourquoi ces données sont-elles aussi importantes ?
Biaisées, erronées, manquantes ou trop nombreuses, les données sont facilement infernales…
comment peuvent-elles représenter et décrire la réalité du monde physique ?
Approche One Hot Encoding et ses limites,
Principes et mise en œuvre de l’Embedding,
Exemples : Classification de critiques de cinéma (sentiment analysis)