Contexte et tokenisation

Question 1

Bonjour,

J'avais une question sur la capture du contexte et ses possibles conséquences sur la tokenisation. Dans le cas de l'exemple utilisé avocat celui ci est il codé par un token ou 2. J'ai du mal à imaginer qu'il ne soit codé que par un seul token. Mais comme je suis béotien... De plus, s'il faut coder chaque sens, cela risque d'augmenter énormément le nombre de tokens et rendre incompréhensible chaque nouveau sens apparaissant dans la langue. Comment sont actuellement résolus ces problèmes ? Merci d'avance pour vos réponses.

Question 2

Ça dépend des méthodes de tokenisation. Certaines méthodes travaillent sur les octets et non sur les lettres donc il est bien possible qu'avocat soit séparé en plusieurs tokens. Mais d'autres méthodes travaillent sur les lettres et les mots et on pourrait tout à fait imaginer avoir un token pour le mot "avocat". Ce même token capturera ensuite le sens à la fois du fruit mais aussi de la personne (seul le contexte permettra de lever cette ambiguïté), donc pas d'explosions du nombre de tokens.

Nathan[IDRIS] · Answer 1 · 2023-12-01T09:21:45+0000

Ça dépend des méthodes de tokenisation. Certaines méthodes travaillent sur les octets et non sur les lettres donc il est bien possible qu'avocat soit séparé en plusieurs tokens. Mais d'autres méthodes travaillent sur les lettres et les mots et on pourrait tout à fait imaginer avoir un token pour le mot "avocat". Ce même token capturera ensuite le sens à la fois du fruit mais aussi de la personne (seul le contexte permettra de lever cette ambiguïté), donc pas d'explosions du nombre de tokens.

Contexte et tokenisation

Votre réponse

1 Réponse

Votre commentaire sur cette réponse

Catégories