Bonjour,
J'avais une question sur la capture du contexte et ses possibles conséquences sur la tokenisation. Dans le cas de l'exemple utilisé avocat celui ci est il codé par un token ou 2. J'ai du mal à imaginer qu'il ne soit codé que par un seul token. Mais comme je suis béotien... De plus, s'il faut coder chaque sens, cela risque d'augmenter énormément le nombre de tokens et rendre incompréhensible chaque nouveau sens apparaissant dans la langue. Comment sont actuellement résolus ces problèmes ? Merci d'avance pour vos réponses.