Bonjour,
Sur quelles bases de données sont entrainés les NLP ?
Si les bases de données sont tirées d'internet, la majorité doit être en anglais.
Observe-t-on de meilleures performances sur des entrées en anglais plutôt qu'en français ou en hindi par exemple ? Ont-ils des difficultés pour les langues qui ont des syntaxes très différentes de l'anglais ?
Avez-vous un article qui explore ces biais ?
Merci ! :)