Définition Active Learning -

Active Learning

L’Apprentissage Actif, ou Active Learning en anglais, est un concept qui trouve son application principale dans le domaine de l’apprentissage automatique (Machine Learning), bien qu’il existe également une acception distincte dans le domaine de l’éducation. Dans le contexte de l’apprentissage automatique, l’Apprentissage Actif désigne une sous-discipline où l’algorithme d’apprentissage a la capacité de choisir de manière interactive les données à partir desquelles il apprend. Plus précisément, au lieu d’être alimenté passivement par un ensemble de données étiquetées, un modèle d’Apprentissage Actif peut interroger un oracle (généralement un expert humain) pour obtenir des étiquettes pour des points de données non étiquetés jugés les plus informatifs. L’objectif fondamental est d’atteindre une haute performance du modèle en utilisant le moins d’exemples étiquetés possible, réduisant ainsi le coût et l’effort d’annotation des données. En éducation, l’Apprentissage Actif se réfère à des méthodes pédagogiques qui engagent activement les étudiants dans le processus d’apprentissage à travers des discussions, des résolutions de problèmes et des activités pratiques, par opposition à l’apprentissage passif par écoute. Cet article se concentrera principalement sur l’Apprentissage Actif tel qu’il est compris en apprentissage automatique.

Les concepts fondamentaux de l’Apprentissage Actif en apprentissage automatique reposent sur l’idée que tous les points de données n’ont pas la même valeur pour l’apprentissage d’un modèle. Dans de nombreux scénarios réels, les données non étiquetées sont abondantes et peu coûteuses à obtenir, tandis que l’étiquetage des données est un processus long, coûteux et nécessitant une expertise humaine. L’Apprentissage Actif cherche à optimiser ce processus. Le principe essentiel est un cycle itératif : un modèle est d’abord entraîné sur un petit ensemble de données étiquetées. Ensuite, l’algorithme d’Apprentissage Actif utilise une stratégie d’interrogation (query strategy) pour sélectionner les instances non étiquetées les plus utiles ou informatives parmi un grand pool de données disponibles. Ces instances sélectionnées sont ensuite présentées à un oracle (par exemple, un annotateur humain) pour obtenir leurs étiquettes. Une fois étiquetées, ces nouvelles instances sont ajoutées à l’ensemble d’entraînement, et le modèle est ré-entraîné avec cet ensemble enrichi. Ce cycle se répète jusqu’à ce qu’un critère d’arrêt soit atteint, comme un budget d’annotation épuisé ou une performance de modèle satisfaisante. L’oracle est une composante clé, agissant comme source de vérité pour les étiquettes demandées.

L’importance et la pertinence de l’Apprentissage Actif sont considérables dans de nombreux domaines. Son impact principal réside dans sa capacité à réduire drastiquement le besoin en données étiquetées, ce qui se traduit par une diminution significative des coûts et du temps associés à la création de jeux de données d’entraînement de haute qualité. En permettant au modèle de se concentrer sur les exemples les plus difficiles ou les plus incertains, l’Apprentissage Actif peut souvent conduire à des modèles plus performants avec beaucoup moins d’étiquettes qu’un apprentissage passif qui utiliserait des données étiquetées aléatoirement. Cette efficacité est particulièrement cruciale dans des domaines tels que la médecine, la recherche scientifique, ou le traitement de langues rares, où l’expertise nécessaire à l’étiquetage est rare et chère. De plus, l’Apprentissage Actif peut accélérer le cycle de développement des systèmes d’intelligence artificielle en permettant d’atteindre plus rapidement des performances acceptables. Il favorise également une meilleure compréhension des données et des limites du modèle en mettant en lumière les cas où le modèle est le plus incertain.

Les applications pratiques de l’Apprentissage Actif sont variées et touchent de nombreux secteurs. En classification de texte, il est utilisé pour améliorer les filtres anti-spam en demandant aux utilisateurs de qualifier des emails ambigus, ou pour l’analyse de sentiments en sélectionnant les critiques de produits les plus informatives à étiqueter. Dans le domaine de la reconnaissance d’images, l’Apprentissage Actif aide à construire des classificateurs d’images performants en minimisant le nombre d’images à annoter manuellement, ce qui est utile pour l’identification d’objets, la segmentation d’images médicales (par exemple, la détection de tumeurs où l’avis d’un radiologue est coûteux) ou la surveillance par satellite. En traitement du langage naturel, il est appliqué à des tâches comme la reconnaissance d’entités nommées, la traduction automatique, ou la reconnaissance vocale, où l’annotation de données textuelles ou audio est laborieuse. Un exemple concret pourrait être un système de modération de contenu en ligne qui, face à un nouveau message, évalue sa probabilité d’être inapproprié. Si le système est incertain, il transmet le message à un modérateur humain pour décision, puis intègre cette décision pour s’améliorer. En bio-informatique, il est utilisé pour la découverte de médicaments en identifiant les composés les plus prometteurs à tester expérimentalement, ou pour l’analyse de séquences génomiques.

L’Apprentissage Actif présente plusieurs nuances et variations, principalement autour des scénarios d’application et des stratégies d’interrogation. Trois scénarios principaux sont distingués. Le « pool-based sampling » est le plus courant : l’algorithme a accès à un grand ensemble (pool) de données non étiquetées et sélectionne un sous-ensemble de ces données à étiqueter à chaque itération. Le « stream-based selective sampling » (ou « sequential active learning ») traite les données une par une, comme dans un flux. Pour chaque instance non étiquetée qui arrive, l’algorithme décide si elle doit être étiquetée ou ignorée. Cette approche est adaptée aux applications où les données arrivent en continu. Enfin, la « query synthesis » (ou « membership query synthesis ») est un scénario où l’algorithme ne se contente pas de choisir parmi les données existantes, mais génère de nouvelles instances (potentiellement non observées dans la distribution naturelle des données) et demande à l’oracle de les étiqueter. Concernant les stratégies d’interrogation, elles déterminent quels points de données sont considérés comme les plus informatifs. Les stratégies basées sur l’incertitude (« uncertainty sampling ») sélectionnent les instances pour lesquelles le modèle actuel est le moins confiant (par exemple, celles proches de la frontière de décision). Des variantes incluent « least confident sampling », « margin sampling » et « entropy sampling ». La stratégie « query-by-committee » (QBC) utilise un comité de plusieurs modèles entraînés sur les mêmes données étiquetées ; les instances sur lesquelles les modèles du comité sont le plus en désaccord sont choisies. D’autres stratégies incluent la réduction de l’erreur attendue (« expected error reduction »), la réduction de la variance (« variance reduction »), ou celles qui visent à maximiser la diversité des instances sélectionnées pour éviter la redondance et mieux explorer l’espace des caractéristiques. Les méthodes pondérées par la densité (« density-weighted methods ») tentent de combiner l’incertitude avec la représentativité de l’instance dans la distribution des données.

L’Apprentissage Actif est étroitement lié à plusieurs autres concepts en apprentissage automatique. Il est souvent considéré comme un cas particulier de l’apprentissage semi-supervisé, car il utilise à la fois des données étiquetées et non étiquetées. Cependant, contrairement à la plupart des méthodes semi-supervisées passives, l’Apprentissage Actif implique une interaction avec un oracle pour acquérir de nouvelles étiquettes. Il est également lié à l’apprentissage supervisé, car l’objectif final est généralement d’entraîner un modèle supervisé performant. Il peut être vu comme une technique pour rendre l’apprentissage supervisé plus efficace en termes de données. Le concept de « human-in-the-loop machine learning » est très proche, car l’Apprentissage Actif est une des principales manières d’intégrer l’intervention humaine de manière ciblée dans le cycle d’apprentissage. L’antonyme principal de l’Apprentissage Actif est l’apprentissage passif (« passive learning »), où l’ensemble des données d’entraînement étiquetées est fixé à l’avance ou sélectionné aléatoirement, sans que le modèle n’ait son mot à dire sur les instances à étiqueter. Il existe aussi des liens avec l’apprentissage par renforcement, notamment dans la manière dont l’apprenant actif prend des décisions séquentielles (quelles instances interroger) pour maximiser une récompense à long terme (la performance du modèle).

Un bref aperçu de l’historique de l’Apprentissage Actif montre que les premières idées remontent aux travaux sur la théorie de l’apprentissage computationnel et les requêtes d’appartenance dans les années 1980 et au début des années 1990. Le terme « active learning » lui-même a commencé à être plus largement utilisé dans les années 1990. Des travaux pionniers comme ceux de David Cohn, Les Atlas et Richard Ladner sur la sélection d’exemples pour minimiser la variance du modèle ont jeté des bases importantes. L’intérêt pour l’Apprentissage Actif a considérablement augmenté avec la popularisation des machines à vecteurs de support (SVM) au début des années 2000, car ces modèles bénéficiaient particulièrement de la sélection d’exemples proches de la marge de séparation. Plus récemment, avec l’avènement de l’apprentissage profond (Deep Learning) et la nécessité d’annoter d’énormes quantités de données pour entraîner des réseaux de neurones profonds, l’Apprentissage Actif a connu un regain d’intérêt, conduisant au développement de techniques de « Deep Active Learning » qui adaptent les stratégies d’Apprentissage Actif aux architectures de réseaux de neurones.

L’Apprentissage Actif offre de nombreux avantages, mais présente également des inconvénients, des défis et des limitations. Parmi les avantages, le plus significatif est l’efficacité en termes de données étiquetées, permettant d’obtenir des modèles performants avec un effort d’annotation considérablement réduit. Cela peut conduire à des modèles plus robustes et une meilleure généralisation, surtout si les instances informatives sont bien choisies. Cependant, l’implémentation de systèmes d’Apprentissage Actif peut être plus complexe que celle des systèmes d’apprentissage passif. Un défi majeur est le coût associé à l’oracle : même si moins d’étiquettes sont requises, chaque requête a un coût (temps humain, ressources expérimentales). Le choix de la stratégie d’interrogation est crucial et souvent non trivial ; une mauvaise stratégie peut être inefficace, voire contre-productive. Il existe un risque de « biais de sélection de l’échantillon » (sample selection bias) si la stratégie se concentre trop sur certaines régions de l’espace des caractéristiques en négligeant d’autres, ou si l’oracle lui-même est biaisé ou commet des erreurs. L’Apprentissage Actif peut aussi souffrir du « cold start problem » : il nécessite généralement un petit ensemble initial d’exemples étiquetées de manière aléatoire pour démarrer le processus. De plus, le processus de sélection des instances peut introduire un surcoût computationnel à chaque itération. Enfin, évaluer rigoureusement l’efficacité d’une stratégie d’Apprentissage Actif peut être complexe, car cela dépend de nombreux facteurs, y compris l’ensemble de données, le modèle utilisé et la nature de l’oracle. Malgré ces défis, l’Apprentissage Actif reste une approche puissante et prometteuse pour de nombreuses applications d’apprentissage automatique confrontées à des contraintes d’étiquetage.