Définition ELMO (Embeddings from Language Models) -

ELMO (Embeddings from Language Models)

ELMO, acronyme de Embeddings from Language Models, désigne une méthode avancée de génération de représentations vectorielles (embeddings) pour les mots dans le domaine du Traitement Automatique du Langage Naturel (TALN ou NLP en anglais). Contrairement aux embeddings de mots traditionnels comme Word2Vec ou GloVe qui assignent un vecteur unique et statique à chaque mot, ELMO génère des embeddings contextuels, signifiant que la représentation d’un mot dépend du contexte spécifique dans lequel il apparaît.

Les concepts fondamentaux derrière ELMO reposent sur l’idée que le sens d’un mot est fortement influencé par les mots qui l’entourent. Pour capturer cette nuance, ELMO utilise un modèle de langage bidirectionnel profond basé sur des réseaux de neurones récurrents, spécifiquement des LSTMs (Long Short-Term Memory). Ce modèle, appelé biLM (bidirectional Language Model), est entraîné sur une très grande quantité de texte pour prédire le mot suivant dans une séquence (modèle forward) et le mot précédent dans une séquence (modèle backward). L’architecture est « profonde » car elle empile plusieurs couches de LSTMs.

Le principe essentiel d’ELMO est que les différentes couches du biLM capturent différents niveaux d’information syntaxique et sémantique. Les couches inférieures tendent à capturer des aspects plus syntaxiques (comme la partie du discours), tandis que les couches supérieures capturent des aspects plus sémantiques et dépendants du contexte. Pour obtenir l’embedding final d’un mot dans une phrase donnée, ELMO calcule une combinaison linéaire pondérée des états cachés internes produits par toutes les couches du biLM pour ce mot spécifique. Les poids de cette combinaison sont généralement appris spécifiquement pour la tâche en aval (comme l’analyse de sentiments ou la reconnaissance d’entités nommées), permettant aux embeddings ELMO de s’adapter à la tâche cible.

L’importance d’ELMO dans l’histoire du NLP est considérable. Publié en 2018 par des chercheurs de l’Allen Institute for Artificial Intelligence et de l’Université de Washington, ELMO a marqué une rupture majeure avec les approches précédentes basées sur des embeddings statiques. Il a démontré de manière convaincante la puissance des représentations contextuelles profondes, établissant de nouveaux records de performance (état de l’art ou SOTA à l’époque) sur un large éventail de tâches NLP benchmark. Son succès a ouvert la voie et largement influencé le développement de modèles contextuels encore plus sophistiqués, notamment ceux basés sur l’architecture Transformer comme BERT et GPT, qui dominent aujourd’hui le domaine. ELMO a ainsi joué un rôle crucial dans la transition vers l’ère des grands modèles de langage pré-entraînés.

Les applications pratiques d’ELMO sont nombreuses et variées. Il a été utilisé avec succès pour améliorer les performances dans des tâches telles que : l’analyse de sentiments, où la nuance contextuelle est primordiale ; la reconnaissance d’entités nommées (NER), où le même mot peut être une entité ou non selon le contexte ; la résolution d’ambiguïté lexicale (Word Sense Disambiguation), par exemple distinguer si le mot « avocat » désigne le fruit ou le professionnel du droit ; la réponse à des questions (Question Answering) ; l’inférence de langage naturel (Natural Language Inference) ; et la classification de textes. Un exemple concret illustrant sa force est sa capacité à générer des représentations différentes pour le mot « bank » dans les phrases « I sat on the river bank » (rive) et « I need to go to the bank » (institution financière), là où les embeddings statiques fourniraient le même vecteur pour les deux occurrences.

Il existe peu de variations directes du terme ELMO lui-même, mais il est important de comprendre ses nuances. ELMO n’est pas un modèle unique prêt à l’emploi pour toutes les tâches, mais plutôt une méthode pour générer des embeddings dynamiques. La performance optimale dépend souvent de l’apprentissage des poids de combinaison des couches pour la tâche spécifique. Il se distingue des embeddings statiques par sa nature contextuelle et des modèles comme BERT par son architecture (LSTM vs Transformer) et sa bidirectionnalité (concaténation de LSTMs forward et backward vs masquage et contexte bidirectionnel profond). ELMO produit principalement des embeddings à utiliser comme features dans des modèles spécifiques à une tâche, tandis que BERT est souvent fine-tuné de bout en bout.

Plusieurs concepts sont étroitement liés à ELMO. On trouve les plongements lexicaux (Word Embeddings) en général, les modèles de langage (Language Models) qui en sont la base, les réseaux de neurones récurrents (RNN) et spécifiquement les LSTM qui constituent son architecture. Les plongements contextuels (Contextual Embeddings) sont la catégorie à laquelle ELMO appartient. Des modèles ultérieurs comme BERT, GPT, RoBERTa, et XLNet sont également liés, car ils poursuivent et améliorent l’idée de représentations contextuelles pré-entraînés initiée ou popularisée par ELMO. Les embeddings statiques comme Word2Vec et GloVe peuvent être considérés comme des concepts antonymiques en termes de gestion du contexte. Le terme original utilisé dans la publication scientifique est « deep contextualized word representations ».

L’origine d’ELMO remonte aux travaux de Matthew E. Peters et ses collègues à l’Allen Institute for Artificial Intelligence (AI2) et à l’Université de Washington. Leur article « Deep contextualized word representations », présenté à la conférence NAACL en 2018, a introduit le concept et démontré son efficacité. Cette publication est considérée comme un jalon important dans l’évolution du NLP. Elle s’inscrivait dans une tendance croissante visant à exploiter de grands corpus non étiquetés pour pré-entraîner des modèles de langage capables de générer des représentations riches, transférables ensuite à diverses tâches spécifiques avec moins de données étiquetées. ELMO a été l’une des premières méthodes à montrer de manière spectaculaire le potentiel de cette approche avec des représentations contextuelles profondes.

ELMO présente plusieurs avantages significatifs. Sa capacité à capturer la polysémie et les nuances contextuelles des mots constitue son atout majeur, conduisant à des améliorations substantielles des performances sur de nombreuses tâches NLP. Les représentations générées sont « profondes », intégrant des informations syntaxiques et sémantiques issues des différentes couches du biLM. Le modèle étant pré-entraîné sur un grand corpus, il offre des embeddings de haute qualité qui peuvent être utilisés directement ou adaptés à des tâches spécifiques avec moins de données. Cependant, ELMO a aussi des inconvénients et limitations. Le calcul des embeddings ELMO est plus coûteux en termes de ressources de calcul que celui des embeddings statiques, à la fois pour l’entraînement du biLM initial et pour l’inférence au moment de l’utilisation. Son architecture basée sur les LSTM est intrinsèquement moins parallélisable que les architectures Transformer qui lui ont succédé, limitant sa vitesse de traitement sur le matériel moderne. Bien qu’influent, ELMO a été surpassé en performance par des modèles plus récents comme BERT sur de nombreuses tâches standards. Sa bidirectionnalité, bien que présente, est considérée comme moins « profonde » que celle implémentée dans BERT.