Définition Mixture of Experts -

Mixture of Experts

Mixture of Experts, souvent abrégé en MoE, désigne une architecture d’apprentissage automatique basée sur le principe de « diviser pour régner », où plusieurs sous-modèles spécialisés, appelés « experts », se concentrent sur différentes parties de l’espace des données d’entrée, et où un mécanisme de « gating » détermine dynamiquement quelle combinaison d’experts utiliser pour traiter une entrée donnée. L’objectif est de créer un modèle global plus puissant et efficace en combinant les forces de multiples experts spécialisés.

Les concepts fondamentaux de l’architecture Mixture of Experts reposent sur deux composants principaux : les experts et le réseau de gating (ou mécanisme de porte). Les experts sont typiquement des réseaux de neurones (mais peuvent être d’autres types de modèles) qui apprennent à traiter des sous-ensembles spécifiques ou des aspects particuliers des données. Chaque expert développe une expertise locale. Le réseau de gating, généralement un petit réseau de neurones, prend en entrée les données brutes ou une représentation de celles-ci et produit des poids ou des probabilités indiquant l’importance ou la pertinence de chaque expert pour cette entrée spécifique. La sortie finale du modèle MoE est souvent une combinaison pondérée des sorties des experts, où les poids sont déterminés par le réseau de gating. L’entraînement conjoint du gating et des experts permet au système d’apprendre à la fois comment résoudre les sous-problèmes (experts) et comment attribuer les problèmes aux experts appropriés (gating).

L’importance de l’architecture Mixture of Experts réside principalement dans sa capacité à augmenter considérablement la capacité d’un modèle (le nombre total de paramètres) sans pour autant augmenter proportionnellement le coût de calcul pour chaque prédiction (inférence). Ceci est particulièrement vrai pour les variantes dites « éparses » (Sparse MoE), où seul un petit sous-ensemble d’experts est activé pour chaque entrée. Cette propriété est devenue cruciale dans le développement des très grands modèles de langage (LLM) et d’autres modèles d’intelligence artificielle à grande échelle, permettant de construire des modèles avec des centaines de milliards, voire des trillions de paramètres, tout en maintenant un coût d’inférence gérable. Les MoE permettent également une meilleure modélisation de données complexes, hétérogènes ou multimodales, car différents experts peuvent se spécialiser dans différents régimes ou types de données.

Les applications pratiques des Mixtures of Experts sont nombreuses et en pleine expansion. Initialement utilisées dans des tâches de régression et de classification plus traditionnelles, elles ont connu une résurgence majeure dans le domaine du traitement automatique du langage naturel (TALN). De nombreux grands modèles de langage de pointe, tels que certains modèles de la famille GPT de OpenAI ou Mixtral de Mistral AI, utilisent des architectures MoE pour atteindre des performances élevées avec une efficacité de calcul améliorée à l’inférence. En vision par ordinateur, les MoE sont employées pour la classification d’images, la détection d’objets et la segmentation, où différents experts peuvent se spécialiser sur différents types d’objets ou de scènes. D’autres domaines incluent la robotique, pour l’apprentissage de politiques de contrôle complexes, et les systèmes de recommandation, où différents experts peuvent modéliser les préférences de différents groupes d’utilisateurs.

Il existe plusieurs nuances et variations de l’architecture MoE. La distinction la plus importante est celle entre les MoE denses et les MoE éparses (Sparse MoE). Dans un MoE dense, toutes les sorties des experts sont calculées et combinées. Dans un Sparse MoE, le réseau de gating sélectionne activement un petit nombre d’experts (souvent un ou deux, via un mécanisme « top-k ») pour traiter une entrée donnée, les autres experts restant inactifs. Cela réduit considérablement le coût de calcul. Les mécanismes de gating peuvent également varier, utilisant des fonctions comme softmax pour une pondération douce ou des sélections plus dures. Des architectures hiérarchiques (Hierarchical MoE ou HMoE) ont aussi été proposées, où les experts peuvent eux-mêmes être des MoE, créant une structure arborescente de spécialisation. Enfin, les MoE peuvent être intégrées dans diverses architectures de réseaux de neurones, comme les Transformers, en remplaçant certaines couches denses (feed-forward) par des couches MoE.

Le concept de Mixture of Experts est étroitement lié à l’apprentissage d’ensemble (Ensemble Learning), car il combine les prédictions de plusieurs modèles. Cependant, contrairement aux méthodes d’ensemble classiques comme le bagging ou le boosting où tous les modèles traitent toutes les données, les MoE utilisent un mécanisme de gating pour spécialiser les experts et les activer dynamiquement. Il est également lié aux réseaux de neurones modulaires et à l’idée de décomposition fonctionnelle. On peut le voir comme une forme d’attention ou de routage conditionnel au sein du réseau. Le terme « modèles de mélange conditionnels » est parfois utilisé comme synonyme ou terme très proche. À l’opposé, on trouve les modèles « monolithiques » ou « denses », où un unique ensemble de paramètres est utilisé pour traiter toutes les entrées de la même manière, sans spécialisation interne explicite ni activation conditionnelle.

L’idée des Mixtures of Experts remonte au début des années 1990. L’article fondateur est souvent attribué à Robert Jacobs, Michael Jordan, Steven Nowlan et Geoffrey Hinton, publié en 1991, qui a introduit le concept et un algorithme d’apprentissage basé sur l’espérance-maximisation (EM). Bien que prometteuse, l’approche a connu un succès limité pendant plusieurs années, en partie à cause de la complexité de l’entraînement. La renaissance des MoE est survenue avec les progrès du deep learning et l’augmentation de la taille des modèles. Un jalon important a été l’introduction des Sparse MoE à grande échelle par Noam Shazeer et ses collègues chez Google en 2017, démontrant leur capacité à entraîner des modèles de langage avec une capacité massive tout en contrôlant les coûts de calcul. Depuis lors, les architectures MoE sont devenues un élément clé dans la course aux modèles d’IA de plus en plus performants.

Les avantages des Mixtures of Experts sont significatifs. Le principal est l’augmentation de la capacité du modèle (nombre total de paramètres) bien au-delà de ce qui serait possible avec un modèle dense pour un budget de calcul d’inférence donné, grâce à l’activation éparse. Cette capacité accrue permet souvent d’obtenir de meilleures performances sur des tâches complexes. La spécialisation des experts peut conduire à une meilleure adaptation à la structure sous-jacente des données. Certains chercheurs suggèrent également que l’analyse de l’activation des experts par le gating peut offrir une forme limitée d’interprétabilité, en indiquant quelles parties du modèle sont utilisées pour quelles entrées. Enfin, l’architecture se prête bien à la parallélisation, tant pour l’entraînement que pour l’inférence, car les calculs des experts peuvent souvent être distribués sur plusieurs dispositifs de calcul.

Cependant, les Mixtures of Experts présentent également des inconvénients et des défis. L’entraînement des MoE est notoirement plus complexe et potentiellement instable que celui des modèles denses. Il nécessite des techniques spécifiques pour assurer que la charge de calcul soit équilibrée entre les différents experts et pour éviter que certains experts ne soient jamais ou rarement sélectionnés (le problème de « l’effondrement des experts »). Des mécanismes de régularisation ou des fonctions de perte auxiliaires sont souvent nécessaires. Bien que le coût de calcul à l’inférence soit réduit par l’activation éparse, le coût total en mémoire est élevé, car tous les paramètres de tous les experts doivent être stockés. L’implémentation des MoE, en particulier dans des systèmes distribués à grande échelle, est plus complexe en raison de la nécessité de gérer le routage des données par le gating et la communication entre les différents composants. Le coût de calcul total à l’entraînement peut aussi être plus élevé que celui d’un modèle dense équivalent en performance.