La distillation peut rendre les modèles d'IA plus petits et moins chers

La version originale de cette histoire est parue dans Quanta Magazine .
L'entreprise chinoise d'IA DeepSeek a lancé un chatbot plus tôt cette année, baptisé R1, qui a suscité un vif intérêt. L'essentiel de l'attention s'est concentré sur le fait qu'une entreprise relativement petite et peu connue a annoncé avoir développé un chatbot rivalisant en performances avec ceux des plus grandes entreprises d'IA au monde, mais avec une puissance de calcul et un coût bien inférieurs. En conséquence, les actions de nombreuses entreprises technologiques occidentales ont chuté ; Nvidia, qui commercialise les puces qui exécutent les principaux modèles d'IA, a perdu plus de valeur en une seule journée que n'importe quelle autre entreprise de l'histoire.
Une partie de cette attention comportait un élément d'accusation. Des sources ont affirmé que DeepSeek avait obtenu , sans autorisation, des informations issues du modèle o1 propriétaire d'OpenAI grâce à une technique appelée distillation. Une grande partie de la presse a présenté cette possibilité comme un choc pour le secteur de l'IA, laissant entendre que DeepSeek avait découvert une nouvelle méthode plus efficace pour développer l'IA.
Mais la distillation, aussi appelée distillation des connaissances, est un outil largement utilisé en IA, un sujet de recherche en informatique depuis une décennie et un outil que les grandes entreprises technologiques utilisent pour leurs propres modèles. « La distillation est l'un des outils les plus importants dont disposent aujourd'hui les entreprises pour optimiser l'efficacité de leurs modèles », a déclaré Enric Boix-Adsera , chercheur qui étudie la distillation à la Wharton School de l'Université de Pennsylvanie.
Connaissance obscureL'idée de la distillation est née en 2015 d'un article rédigé par trois chercheurs de Google, dont Geoffrey Hinton, surnommé le parrain de l'IA et lauréat du prix Nobel 2024. À l'époque, les chercheurs utilisaient souvent des ensembles de modèles – « de nombreux modèles collés ensemble », explique Oriol Vinyals , scientifique principal chez Google DeepMind et l'un des auteurs de l'article – pour améliorer leurs performances. « Mais il était extrêmement fastidieux et coûteux d'exécuter tous les modèles en parallèle », explique Vinyals. « L'idée de condenser ces résultats en un seul modèle nous intriguait. »
Les chercheurs pensaient pouvoir progresser en s'attaquant à une faiblesse notable des algorithmes d'apprentissage automatique : les mauvaises réponses étaient toutes considérées comme tout aussi mauvaises, quelle que soit leur ampleur. Dans un modèle de classification d'images, par exemple, « confondre un chien avec un renard était pénalisé de la même manière que confondre un chien avec une pizza », a expliqué Vinyals. Les chercheurs soupçonnaient que les modèles d'ensemble contenaient des informations sur les mauvaises réponses moins mauvaises que les autres. Un modèle « élève » plus petit pourrait peut-être utiliser les informations du modèle « enseignant » plus grand pour appréhender plus rapidement les catégories dans lesquelles il était censé classer les images. Hinton a appelé cela la « connaissance obscure », invoquant une analogie avec la matière noire cosmologique.
Après avoir discuté de cette possibilité avec Hinton, Vinyals a développé un moyen de faire en sorte que le grand modèle de l'enseignant transmette davantage d'informations sur les catégories d'images à un modèle plus petit composé d'élèves. La clé était de cibler les « cibles faciles » du modèle de l'enseignant : il attribue des probabilités à chaque possibilité, plutôt que des réponses figées de type « ceci ou cela ». Un modèle, par exemple, a calculé qu'il y avait 30 % de chances qu'une image représente un chien, 20 % qu'elle représente un chat, 5 % qu'elle représente une vache et 0,5 % qu'elle représente une voiture. En utilisant ces probabilités, le modèle de l'enseignant a révélé à l'élève que les chiens sont assez semblables aux chats, pas si différents des vaches et bien distincts des voitures. Les chercheurs ont constaté que ces informations aideraient l'élève à identifier plus efficacement les images de chiens, de chats, de vaches et de voitures. Un modèle volumineux et complexe pouvait être réduit à un modèle plus léger sans pratiquement aucune perte de précision.
Croissance explosiveL'idée n'eut pas un succès immédiat. L'article fut rejeté lors d'une conférence et Vinyals, découragé, se tourna vers d'autres sujets. Mais la distillation arriva à un moment crucial. À cette époque, les ingénieurs découvraient que plus ils alimentaient les réseaux neuronaux en données d'entraînement, plus ces derniers devenaient efficaces. La taille des modèles explosa rapidement, tout comme leurs capacités , mais les coûts de leur exploitation augmentèrent parallèlement à leur taille.
De nombreux chercheurs se sont tournés vers la distillation pour créer des modèles plus compacts. En 2018, par exemple, les chercheurs de Google ont dévoilé un puissant modèle de langage appelé BERT , que l'entreprise a rapidement utilisé pour analyser des milliards de recherches sur le Web. Mais BERT était volumineux et coûteux à exploiter ; l'année suivante, d'autres développeurs ont donc distillé une version plus petite, judicieusement baptisée DistilBERT, qui a été largement utilisée dans les entreprises et la recherche. La distillation s'est progressivement généralisée et est désormais proposée en tant que service par des entreprises comme Google , OpenAI et Amazon . L'article original sur la distillation, toujours publié uniquement sur le serveur de prépublication arxiv.org, a désormais été cité plus de 25 000 fois .
Étant donné que la distillation nécessite d'accéder aux entrailles du modèle enseignant, il est impossible pour un tiers d'extraire discrètement des données d'un modèle fermé comme o1 d'OpenAI, comme DeepSeek l'aurait fait. Cela dit, un modèle élève pourrait néanmoins apprendre beaucoup d'un modèle enseignant simplement en posant certaines questions à ce dernier et en utilisant les réponses pour entraîner ses propres modèles – une approche quasi socratique de la distillation.
Parallèlement, d'autres chercheurs continuent de trouver de nouvelles applications. En janvier, le laboratoire NovaSky de l'UC Berkeley a démontré l'efficacité de la distillation pour l'entraînement de modèles de raisonnement par chaîne de pensée , qui utilisent la « réflexion » en plusieurs étapes pour mieux répondre à des questions complexes. Le laboratoire affirme que son modèle Sky-T1 entièrement open source a coûté moins de 450 dollars à entraîner et qu'il a obtenu des résultats similaires à ceux d'un modèle open source beaucoup plus vaste. « Nous avons été véritablement surpris par l'efficacité de la distillation dans ce contexte », a déclaré Dacheng Li, doctorant à Berkeley et co-directeur de l'équipe NovaSky. « La distillation est une technique fondamentale en IA. »
Article original reproduit avec la permission de Quanta Magazine , une publication éditoriale indépendante de la Fondation Simons dont la mission est d'améliorer la compréhension publique de la science en couvrant les développements et les tendances de la recherche en mathématiques et en sciences physiques et de la vie.
wired