Définition Latent Variable -

Variable Latente

Une variable latente est une variable statistique qui n’est pas directement observée ou mesurée, mais qui est plutôt inférée (par des méthodes mathématiques ou statistiques) à partir d’autres variables qui sont directement observées ou mesurées (appelées variables manifestes ou observables). Elle représente souvent un concept ou un construit théorique abstrait.

Les concepts fondamentaux entourant les variables latentes reposent sur l’idée qu’il existe des phénomènes ou des caractéristiques sous-jacents qui ne peuvent être capturés directement par une mesure unique. Ces phénomènes influencent ou « causent » les variations que nous observons dans plusieurs variables mesurables. Par exemple, l’intelligence (variable latente) ne peut être mesurée directement, mais elle est supposée influencer les performances à divers tests cognitifs (variables manifestes). Les modèles à variables latentes visent à identifier et quantifier ces entités cachées et leurs relations avec les variables observables. Le principe essentiel est que la structure de corrélation ou de covariance observée entre les variables manifestes peut être expliquée par leur dépendance commune à une ou plusieurs variables latentes. Ces modèles permettent ainsi de réduire la complexité des données en résumant un grand nombre de variables observées par un plus petit nombre de variables latentes, agissant comme une forme de réduction de dimensionnalité.

L’importance des variables latentes est considérable dans de nombreux domaines scientifiques et appliqués. En psychologie et en sciences sociales, elles sont indispensables pour opérationnaliser et mesurer des construits complexes tels que les attitudes, les traits de personnalité, le bien-être, le statut socio-économique ou l’intelligence. Elles permettent aux chercheurs de tester des théories sur des concepts abstraits en reliant ces concepts à des données empiriques. En économie, elles aident à modéliser des notions comme la confiance des consommateurs ou la santé économique globale. En médecine, elles peuvent représenter la sévérité sous-jacente d’une maladie ou l’état de santé général d’un patient, inférés à partir de symptômes ou de résultats de tests cliniques. En apprentissage automatique, les variables latentes sont au cœur de nombreux modèles génératifs, de systèmes de recommandation et de techniques de traitement du langage naturel, permettant de découvrir des structures cachées dans les données et d’améliorer les prédictions. Leur impact réside dans leur capacité à fournir des modèles plus parcimonieux, à mieux gérer l’erreur de mesure inhérente aux variables observées, et à offrir une compréhension plus profonde des mécanismes sous-jacents aux données.

Les applications pratiques des variables latentes sont variées. En psychométrie, l’analyse factorielle est utilisée pour identifier des facteurs latents (par exemple, intelligence verbale, intelligence spatiale) à partir des scores obtenus à différents tests. La théorie de la réponse à l’item (IRT) modélise la probabilité qu’une personne réponde correctement à un item de test en fonction de son niveau de compétence latent. En marketing, l’analyse de classes latentes (LCA) permet de segmenter les consommateurs en groupes homogènes non observés (segments latents) en fonction de leurs préférences ou comportements d’achat. En bioinformatique, les modèles de Markov cachés (HMM) utilisent des états latents pour modéliser des séquences biologiques comme l’ADN ou les protéines. En finance, des facteurs latents peuvent représenter des risques systémiques non observables influençant les rendements des actifs. Dans les systèmes de recommandation (comme ceux de Netflix ou Amazon), la factorisation de matrices décompose la matrice des évaluations utilisateurs-items en facteurs latents représentant les préférences des utilisateurs et les caractéristiques des items. L’Analyse Sémantique Latente (LSA) en traitement du langage naturel utilise des dimensions latentes pour représenter le sens des mots et des documents.

Il existe différentes nuances et interprétations du concept de variable latente. Une distinction importante concerne leur statut ontologique : certains les considèrent comme des entités réelles mais difficiles à mesurer (perspective réaliste), tandis que d’autres les voient comme de simples constructions mathématiques utiles pour simplifier la modélisation sans nécessairement correspondre à une réalité tangible (perspective instrumentaliste). Les variables latentes peuvent également être continues (par exemple, un trait de personnalité variant sur un continuum) ou discrètes (par exemple, appartenir à une classe ou un type non observé, comme dans l’analyse de classes latentes). Différentes méthodes statistiques existent pour les estimer, chacune avec ses propres hypothèses et interprétations, telles que l’Analyse Factorielle Exploratoire (EFA), l’Analyse Factorielle Confirmatoire (CFA), la Modélisation par Équations Structurelles (SEM), l’Analyse de Classes Latentes (LCA), l’Analyse de Profils Latents (LPA), et divers modèles en apprentissage automatique comme les Autoencodeurs Variationnels (VAE) ou les Modèles de Mélange Gaussien (GMM).

Plusieurs concepts sont étroitement liés aux variables latentes. Le principal antonyme est la variable manifeste ou observable, qui est directement mesurée. Le terme « construit » ou « construction hypothétique » désigne le concept théorique que la variable latente est censée représenter. En analyse factorielle, le terme « facteur » est souvent utilisé comme synonyme de variable latente. Il faut distinguer la variable latente de la variable intermédiaire, qui est une variable observable se situant sur un chemin causal entre deux autres variables. La réduction de dimensionnalité est un objectif souvent atteint par l’utilisation de variables latentes. En apprentissage automatique, l' »espace latent » désigne l’espace vectoriel de dimension inférieure défini par les variables latentes, capturant l’information essentielle des données d’origine. L’erreur de mesure est également un concept clé, car les modèles à variables latentes visent souvent à séparer la variance « vraie » (liée à la variable latente) de la variance due à l’erreur de mesure dans les indicateurs observés.

L’histoire du concept de variable latente est principalement ancrée dans le développement de la psychométrie au début du 20e siècle. Charles Spearman est souvent crédité pour avoir introduit l’idée fondamentale avec son travail sur l’analyse factorielle en 1904, où il a postulé l’existence d’un facteur général d’intelligence (‘g’) comme variable latente expliquant les corrélations entre différents tests cognitifs. Les travaux ultérieurs de psychométriciens comme L. L. Thurstone ont développé des méthodes d’analyse factorielle multiple. Paul Lazarsfeld a contribué à formaliser et à étendre l’utilisation des variables latentes en sociologie, notamment avec l’analyse de classes latentes dans les années 1950. Dans les années 1970, Karl Jöreskog et Dag Sörbom ont joué un rôle majeur dans le développement de la Modélisation par Équations Structurelles (SEM), un cadre général intégrant l’analyse factorielle et l’analyse de régression avec des variables latentes. Plus récemment, le concept a été largement adopté et adapté en statistique moderne, en apprentissage automatique et en bioinformatique, avec le développement de nouveaux modèles et algorithmes d’estimation.

L’utilisation de variables latentes présente plusieurs avantages. Elles permettent de quantifier et d’étudier des concepts abstraits et complexes qui sont au cœur de nombreuses théories scientifiques. Elles offrent un moyen de réduire la dimensionnalité des données et de créer des modèles plus parcimonieux. En modélisant explicitement la relation entre les construits latents et leurs indicateurs observés, elles permettent de prendre en compte et d’estimer l’erreur de mesure, conduisant à des estimations plus précises des relations entre les construits. Cependant, elles présentent aussi des inconvénients et des défis. L’estimation des modèles à variables latentes peut être complexe et nécessiter de grands échantillons. L’identification du modèle (s’assurer qu’il existe une solution unique pour les paramètres) peut être problématique. L’interprétation des variables latentes n’est pas toujours directe et peut être subjective, en particulier dans les approches exploratoires. Les résultats sont souvent sensibles aux choix des variables manifestes utilisées et aux hypothèses sous-jacentes du modèle statistique (par exemple, normalité, linéarité). Enfin, par définition, la validité des variables latentes ne peut jamais être directement confirmée puisqu’elles ne sont pas observables ; leur existence et leur signification restent des inférences basées sur les données observées et la théorie sous-jacente. Le choix du nombre approprié de variables latentes à inclure dans un modèle est également souvent un défi.