0 votes
par dans Séquence 8
Bonjour,
Sur quelles bases de données sont entrainés les NLP ?
Si les bases de données sont tirées d'internet, la majorité doit être en anglais.
Observe-t-on de meilleures performances sur des entrées en anglais plutôt qu'en français ou en hindi par exemple ? Ont-ils des difficultés pour les langues qui ont des syntaxes très différentes de l'anglais ?
Avez-vous un article qui explore ces biais ?
Merci ! :)

1 Réponse

0 votes
par Vétéran du GPU 🐋 (68.8k points)
sélectionné par
 
Meilleure réponse
Effectivement, les modèles de NLP apprennent sur des datasets provenant d'internet.

C'est lors de la préparation du dataset que l'on va choisir le mélange de langue (dans le cas d'un modèle multi-langue)

Il s'avère que les modèles multi-langue sont plus performant (la différence est une force!).

Je n'ai pas de papier sous la main, j'essayerai de vous en mettre en commentaire prochainement.
par (240 points)
Les data type wikipedia ne sont donc pas labellées ?
par Vétéran du GPU 🐋 (68.8k points)
Le pre-training "apprend" la langue en self-supervised donc pas besoin de label.
par (240 points)
c'est donc le finetuning qui répond à la tache.
si la tache c'est détection de toxicité des comments, il faut donc des data (type IMDB) de toxicité identifiée pour ce finetuning ?
Ces data doivent donc être dans la même langue que celle qui a été apprise lors du pre-training ?
Donc pour des tweets en français : pre-training sur FlauBERT et il faut donc des tweets en français labellés 0 ou 1 pour non-toxic/toxic ?
par
Merci beaucoup !
...