0 votes
par dans 03 - Démo et Illustration
edité par
Bonjour,

      J'avais une question sur la capture du contexte et ses possibles conséquences sur la tokenisation. Dans le cas de l'exemple utilisé avocat celui ci est il codé par un token ou 2. J'ai du mal à imaginer qu'il ne soit codé que par un seul token. Mais comme je suis béotien... De plus, s'il faut coder chaque sens, cela risque d'augmenter énormément le nombre de tokens et rendre incompréhensible chaque nouveau sens apparaissant dans la langue. Comment sont actuellement résolus ces problèmes ? Merci d'avance pour vos réponses.

1 Réponse

0 votes
par Vétéran du GPU 🐋 (46.6k points)
sélectionné par
 
Meilleure réponse
Ça dépend des méthodes de tokenisation. Certaines méthodes travaillent sur les octets et non sur les lettres donc il est bien possible qu'avocat soit séparé en plusieurs tokens. Mais d'autres méthodes travaillent sur les lettres et les mots et on pourrait tout à fait imaginer avoir un token pour le mot "avocat". Ce même token capturera ensuite le sens à la fois du fruit mais aussi de la personne (seul le contexte permettra de lever cette ambiguïté), donc pas d'explosions du nombre de tokens.
...