Définition Pretraining -

Pré-entraînement

Le pré-entraînement est une phase initiale d’apprentissage automatique où un modèle, typiquement un réseau de neurones profond, est entraîné sur un très grand ensemble de données, souvent de manière non supervisée ou auto-supervisée. L’objectif principal de cette phase n’est pas de résoudre une tâche spécifique directement, mais plutôt d’apprendre des représentations générales, des motifs, ou des connaissances fondamentales à partir des données massives. Ces connaissances acquises servent ensuite de point de départ pour une seconde phase d’entraînement, appelée ajustement fin (fine-tuning), où le modèle est adapté à une ou plusieurs tâches spécifiques avec un ensemble de données généralement plus petit et étiqueté.

Les concepts fondamentaux du pré-entraînement reposent sur l’idée de l’apprentissage par transfert (transfer learning). Plutôt que d’initialiser les paramètres (poids) d’un modèle de manière aléatoire avant de l’entraîner sur une tâche spécifique, le pré-entraînement permet d’initialiser ces poids de manière informée. Le modèle apprend d’abord des caractéristiques de bas niveau (comme les bords et textures dans les images, ou les relations syntaxiques simples dans le texte) puis progressivement des caractéristiques de plus haut niveau (comme les objets complexes ou les relations sémantiques). Cet apprentissage se fait souvent sans étiquettes humaines explicites, en utilisant des techniques non supervisées (découverte de structures dans les données) ou auto-supervisées, où le modèle génère lui-même ses propres signaux de supervision à partir des données brutes (par exemple, prédire un mot masqué dans une phrase, ou prédire la prochaine phrase dans un texte).

L’importance du pré-entraînement dans l’intelligence artificielle moderne, et particulièrement dans l’apprentissage profond, est considérable. Il a permis des avancées spectaculaires en termes de performance dans de nombreux domaines, notamment le traitement du langage naturel (NLP) et la vision par ordinateur. L’un de ses impacts majeurs est de réduire considérablement la quantité de données étiquetées nécessaires pour atteindre de hautes performances sur une tâche spécifique. L’obtention de données étiquetées étant souvent coûteuse et chronophage, le pré-entraînement rend l’IA de pointe plus accessible. De plus, en partageant des modèles pré-entraînés (comme BERT, GPT, ResNet), la communauté de recherche et les développeurs peuvent construire sur des bases solides, accélérant ainsi l’innovation et démocratisant l’accès à des modèles puissants. Il permet également souvent une convergence plus rapide et plus stable lors de la phase d’ajustement fin.

Les applications pratiques du pré-entraînement sont omniprésentes. En NLP, des modèles comme BERT, RoBERTa, GPT-3, ou T5 sont pré-entraînés sur d’immenses corpus de texte (provenant du web, de livres, etc.) et sont ensuite ajustés pour des tâches variées : classification de texte (analyse de sentiments, détection de spam), traduction automatique, réponse à des questions, résumé de texte, génération de dialogue, reconnaissance d’entités nommées. Par exemple, un modèle pré-entraîné peut être rapidement adapté pour classer des critiques de films comme positives ou négatives avec seulement quelques milliers d’exemples étiquetés. En vision par ordinateur, des réseaux convolutifs (CNN) comme VGG, ResNet, EfficientNet, pré-entraînés sur la base de données ImageNet (plus d’un million d’images classées en mille catégories), servent de colonne vertébrale pour la détection d’objets dans des images, la segmentation sémantique (identifier les pixels appartenant à chaque objet), l’analyse d’images médicales (détection de tumeurs), ou la reconnaissance faciale.

Il existe différentes nuances et variations dans les approches de pré-entraînement. Les objectifs d’apprentissage auto-supervisé peuvent varier : modélisation de langage masqué (Masked Language Modeling, MLM), prédiction de la phrase suivante (Next Sentence Prediction, NSP), apprentissage contrastif (qui apprend à rapprocher les représentations d’échantillons similaires et à éloigner celles d’échantillons différents), reconstruction d’entrée (auto-encodeurs). Le pré-entraînement peut être générique, visant à capturer des connaissances larges, ou spécifique à un domaine (par exemple, BioBERT pré-entraîné sur des publications biomédicales, FinBERT sur des textes financiers) pour améliorer les performances sur des tâches dans ces domaines spécialisés. La puissance des représentations apprises lors du pré-entraînement permet parfois des capacités d’apprentissage « zero-shot » (le modèle réussit une tâche sans aucun exemple spécifique) ou « few-shot » (le modèle réussit avec très peu d’exemples).

Plusieurs concepts sont étroitement liés au pré-entraînement. L’apprentissage par transfert est le concept général qui englobe le pré-entraînement. L’ajustement fin (fine-tuning) est l’étape qui suit typiquement le pré-entraînement pour spécialiser le modèle. L’extraction de caractéristiques (feature extraction) est une alternative à l’ajustement fin où les poids du modèle pré-entraîné sont gelés et seules les couches finales sont entraînées. L’apprentissage de représentations (representation learning) est ce que le pré-entraînement cherche à accomplir : apprendre des représentations utiles des données. Les méthodes d’apprentissage non supervisé et auto-supervisé sont les techniques couramment employées pour réaliser le pré-entraînement. À l’opposé du pré-entraînement, on trouve l’entraînement « à partir de zéro » (training from scratch), où les poids du modèle sont initialisés aléatoirement avant l’entraînement sur la tâche cible.

L’idée de pré-entraîner des réseaux de neurones n’est pas entièrement nouvelle et trouve ses origines dans des travaux antérieurs sur l’initialisation des poids et le pré-entraînement couche par couche des réseaux profonds au milieu des années 2000. Cependant, le pré-entraînement tel que nous le connaissons aujourd’hui a véritablement décollé avec l’avènement de l’apprentissage profond, la disponibilité de grands ensembles de données et la puissance de calcul des GPU. Les plongements lexicaux (word embeddings) comme Word2Vec (2013) et GloVe (2014) peuvent être considérés comme une forme précoce et influente de pré-entraînement pour le NLP, fournissant des représentations vectorielles denses pour les mots. En vision par ordinateur, le succès des modèles pré-entraînés sur ImageNet, à partir d’AlexNet en 2012, a établi ce paradigme. L’introduction de l’architecture Transformer en 2017 a ensuite révolutionné le pré-entraînement en NLP, menant à des modèles comme BERT (2018) et la série GPT, qui ont défini l’état de l’art.

Le pré-entraînement offre de nombreux avantages : amélioration des performances sur les tâches cibles, réduction significative du besoin en données étiquetées, convergence plus rapide lors de l’ajustement fin, et meilleure capacité de généralisation du modèle. La réutilisation de modèles pré-entraînés économise également des ressources computationnelles considérables pour les utilisateurs finaux. Cependant, il présente aussi des inconvénients et des défis. Le coût computationnel et environnemental du pré-entraînement des modèles les plus grands est extrêmement élevé. Les modèles pré-entraînés peuvent hériter et potentiellement amplifier les biais (sociaux, démographiques, etc.) présents dans les données massives et souvent peu filtrées utilisées pour leur apprentissage. Un décalage important entre les données de pré-entraînement et les données de la tâche cible (domain mismatch) peut limiter, voire annuler, les bénéfices du pré-entraînement. L’interprétabilité de ce qui est appris reste limitée. Des phénomènes comme l’oubli catastrophique (le modèle perd ses connaissances générales lors de l’ajustement fin) peuvent survenir. Enfin, des considérations éthiques importantes concernent la propagation des biais et le potentiel d’utilisation malveillante de modèles très performants, notamment en génération de texte. Le choix du bon modèle pré-entraîné et de la bonne stratégie d’ajustement reste crucial pour le succès de l’application.