+1 vote
par dans Séquence 5
reclassée par
Je trouve qu'il y a une tendance à faire "vite" pour estimer l'apprentissage, alors qu'un bon modèle, qui a bien appris est beaucoup plus utile qu'un modèle qui a appris plus vite ... Quand on cherche une réponse complexe, pourquoi pas y passer des mois ?

4 Réponses

0 votes
par
sélectionné par
 
Meilleure réponse
Je pense que le message est d'éviter le gâchis de ressources.

Mais évidemment lorsque le problème est complexe il vaut mieux passer du temps à entrainer un modèle très large. Si le modèle est ouvert on peu imaginer qu'il sera utilisé dans d'autres contexte et qu'au final cela permettra d'économiser des ressources.
+2 votes
par Vétéran du GPU 🐋 (11.2k points)
Pensez à la planète aussi !! Vlà la consommation électrique !!
par
C'est un faux débat, si on a une IA qui est capable à coup sûr :
- de nous donner les conditions pour se téléporter
- ou de produire une enzyme capable d'éliminer le CO2 surnuméraire de l'atmosphère
- de permettre de voyager plus vite que la lumière

Alors, cela peut valoir le coup de l'entrainer "un peu plus" ...
Pour l'instant les IA que j'ai vues, y compris (chat)GPT, galactica, alphafold, ESMfold, Dall-E et consorts ne sont capables que de singer ce qu'un humain fait sans effort.
par Vétéran du GPU 🐋 (68.8k points)
Je ne crois pas qu'un humain arrive de tête à faire le repliement d'une protéine inconnue.
Si il est vrai que de manière générale l'IA n'est pas au-dessus de l'homme (pour l'instant) ce n'est clairement pas le cas pour des tâches spécialisées comme on peut faire avec les modèles que vous citez
par
Bien au contraire, pour l'instant toutes les protéines nouvelles ont été conçues par un humain ... Cela a fait chaque fois un article dans le journal Science ou Nature (en fonction des équipes). On n'est qu'au début de l'histoire, et pour l'instant l'IA n'est qu'un outil, pas du tout une "force de proposition". Je viens de donner une conférence sur le sujet (la semaine dernière).
+1 vote
par (3.1k points)
Les plus gros modèles comme Bloom, GPT-3, etc qui sont capables de répondre à des questions dans plusieurs langues ont appris sur plus de 350 GPU (nvidia A100 à 80GB) pendant près de 4 mois sur l'équivalent de 3 millions de livres, 24h sur 24. C'est donc très long en réalité.

Bloom : https://bigscience.huggingface.co/blog/bloom
par
Oui oui j'en suis bien conscient, car je travaille avec AlphFold2 par exemple. Mais est-ce qu'un modèle appris avec un petit jeu de données, en une ou deux journées par exemple, peut être transféré "juste" en augmentant le temps de calcul avec le jeu de données complet ?
par (3.1k points)
+1
Les modèles que j'ai cités, ou un modèle entraîné sur 1% d'un dataset, peuvent être ensuite réutilisés comme point de départ pour être spécialisés (sur un domaine spécifique ou pour faire une autre tâche (générer du texte -> classification de sentiments, par exemple).

C'est l'intérêt des gros modèles généralistes - la spécialisation nécessitant généralement beaucoup moins de ressources.
+1 vote
par Vétéran du GPU 🐋 (68.8k points)
Le problème se trouve dans les cas ou on prend des mois pour avoir un modèle peu performant. C'est pour cela qu'on aime bien avoir un résultat le plus rapide possible. De plus, là on parle de petit modèle mais les plus gros modèles nécessitent déjà des mois d'apprentissage.
par
Oui, mais est-ce qu'un modèle appris sur un sous-ensemble du jeu de données est transférable à un plus grand ?
Par exemple je fais x types de réseaux, je teste sur 1% des données, est-ce que la performance de mes x réseaux sera la même sur 100% du jeu de données ?
...