Après avoir entraîné un modèle, fine-tuné un modèle, ou sélectionné un modèle pré-entraîné, comment déployer ce modèle et le rendre facilement utilisable ? …tout en essayant d’en minimiser l’empreinte ?
La réponse à cette question correspond à une ingénierie particulière : il faudra choisir un système adapté puis transformer, compresser le modèle en prenant en compte le coût énergétique, le coût en stockage, le niveau de performance exigée, la latence.
Ensuite il faudra se transformer en DevOps, pour mettre en production le modèle, en maîtrisant la containérisation, les orchestrateurs Kubernetes, les serveurs d’inférences, le déploiement en Edge App.
Nous verrons précisément les solutions simplifiées et dédiées que sont : Gradio, BentoML
Optimisation de l’inférence : Architectures, Compression de Modèle, Frameworks d’inférence
Deploiement : Terminaux, serveurs, gestion des dépendances, Orchestrateurs
Gradio : une interface complète pour des démos stylisées