C'est une compression des modèles de deep learning. La compression et la quantisation ne sont pas des méthodes nouvelles et fonctionnent très bien pour l'inférence. Déjà on fait de l'apprentissage sur 16 bits. Pour l'inférence, l'expérience montre qu'on peut descendre à 8 bits voire même 4 bits. Forcément la qualité du modèle est un peu dégradée mais des méthodes permettent de limiter ça. par ailleurs, plus le modèle est gros, moins il sera sensible à la quantisation de ses poids (c'est pour ça que c'est très utilisé sur les LLM de plusieurs dizaines de milliards de paramètres qui seraient trop chers à inférer sinon). On a déjà vu des trucs baisser encore plus bas mais c'est pas encore clair si c'est rentable ou pas puisqu'il y a eu peu de reproductibilité des résultats. La compression 1 bit a été un peu abandonnée car trop mauvaise. Mais effectivement il y a eu quelques articles qui ont proposé une compression 1.58 bits. Ça ne concernera de toute façon que les très très gros modèles, et c'est encore un sujet très flou.