Définition Causal Inference -

Inférence Causale

L’inférence causale est le processus intellectuel et méthodologique visant à déterminer si et dans quelle mesure une relation observée entre une ou plusieurs variables (les causes potentielles ou traitements) et une autre variable (l’effet ou le résultat) représente un lien de cause à effet. Elle cherche à aller au-delà de la simple corrélation pour établir qu’un changement dans une variable provoque directement un changement dans une autre.

Les concepts fondamentaux de l’inférence causale incluent la distinction primordiale entre corrélation et causalité. Deux variables peuvent varier conjointement sans qu’un lien de causalité direct n’existe entre elles, souvent en raison d’une troisième variable, dite confondante. Le concept de contrefactuel, ou résultat potentiel, est central : il s’agit de comparer le résultat observé sous une certaine exposition à celui qui se serait produit pour la même unité si l’exposition avait été différente. Le « problème fondamental de l’inférence causale » est l’impossibilité d’observer simultanément ces deux états pour une même unité. Les interventions, ou manipulations délibérées d’une variable, sont une autre notion clé, formalisée par l’opérateur « do(X) » de Pearl, qui distingue l’observation passive de l’action active. La randomisation, comme dans les essais contrôlés randomisés (ECR), est considérée comme la méthode de référence pour établir la causalité, car elle tend à équilibrer les facteurs de confusion (observés et non observés) entre les groupes. Les Graphes Acycliques Dirigés (DAGs) sont des outils graphiques pour visualiser et analyser les relations causales supposées et identifier les biais potentiels. Des hypothèses cruciales comme l’ignorabilité (ou échangeabilité, signifiant qu’il n’y a pas de confusion non mesurée une fois les covariables observées prises en compte) et la positivité (ou support commun, assurant que toutes les unités ont une probabilité non nulle de recevoir chaque niveau de traitement) sous-tendent de nombreuses méthodes d’inférence causale à partir de données observationnelles.

L’importance de l’inférence causale réside dans sa capacité à guider la prise de décision et l’action dans divers domaines. Contrairement aux modèles purement prédictifs qui peuvent se baser sur des corrélations, l’inférence causale vise à comprendre les mécanismes par lesquels les changements se produisent. Cela est pertinent pour évaluer l’efficacité des politiques publiques, des interventions médicales, des stratégies commerciales, ou pour comprendre des phénomènes sociaux complexes. Son impact est donc majeur : elle permet d’éviter des interventions coûteuses et inefficaces, voire nuisibles, et de cibler les actions les plus susceptibles de produire les résultats souhaités. En science, elle est le moteur de la découverte des lois et mécanismes régissant le monde.

Les applications pratiques de l’inférence causale sont multiples. En médecine, elle est utilisée pour déterminer l’efficacité et les effets secondaires des médicaments et des thérapies via des essais cliniques. Par exemple, comparer la guérison de patients recevant un nouveau traitement à celle de patients recevant un placebo. En économie, elle sert à évaluer l’impact de politiques telles que l’augmentation du salaire minimum sur l’emploi, souvent en utilisant des méthodes quasi-expérimentales comme la « différence de différences » en comparant des régions traitées et non traitées avant et après l’intervention. En marketing, les entreprises utilisent des tests A/B (une forme de randomisation) pour mesurer l’effet causal d’une nouvelle publicité sur les ventes. En sciences sociales, on cherche à établir les causes de phénomènes comme les inégalités scolaires ou la criminalité, en contrôlant statistiquement les facteurs socio-économiques. En santé publique, des études observationnelles rigoureuses ont permis d’établir le lien causal entre le tabagisme et le cancer du poumon.

Il existe différentes nuances et perspectives dans l’approche de l’inférence causale. Le cadre des résultats potentiels (Potential Outcomes Framework), associé à Donald Rubin, définit l’effet causal comme la différence entre le résultat d’une unité si elle est exposée au traitement et son résultat si elle ne l’est pas. L’estimation se concentre souvent sur l’effet moyen du traitement dans une population. L’approche des modèles causaux structurels (Structural Causal Models, SCM), développée par Judea Pearl, utilise des graphes et des équations pour modéliser les mécanismes générateurs de données, et introduit le « do-calculus » pour identifier les effets causaux à partir de données observationnelles. La causalité au sens de Granger, utilisée en séries temporelles, stipule qu’une variable cause une autre si ses valeurs passées améliorent la prédiction de la seconde, au-delà des valeurs passées de cette dernière. Ces approches, bien que distinctes, sont souvent complémentaires.

Plusieurs concepts sont étroitement liés à l’inférence causale. L’analyse contrefactuelle est un élément central. Les méthodes spécifiques incluent les Essais Contrôlés Randomisés (ECR), les Variables Instrumentales (VI), l’Appariement par Score de Propension (Propensity Score Matching), la méthode des Différences de Différences (Difference-in-Differences), la Régression sur Discontinuité (Regression Discontinuity Design), et les Modèles d’Équations Structurelles (SEM). Le terme « analyse causale » est un synonyme courant. L’antonyme principal est « inférence corrélationnelle » ou « association statistique », qui ne suppose pas de lien de cause à effet.

L’origine de la réflexion sur la causalité est ancienne (philosophie grecque, Hume, Mill), mais son formalisme moderne est plus récent. Au début du 20ème siècle, les statisticiens comme R.A. Fisher ont introduit la randomisation dans l’expérimentation. Les économistes de la Cowles Commission (années 1940) ont développé les modèles d’équations simultanées. En épidémiologie, les critères de Bradford Hill (1965) ont fourni un cadre pour inférer la causalité à partir d’études observationnelles. Les contributions de Donald Rubin (depuis les années 1970) avec le modèle des résultats potentiels, et de Judea Pearl (depuis les années 1980) avec les modèles graphiques causaux et le « do-calculus », ont marqué une avancée majeure, unifiant et formalisant le domaine. L’intérêt pour l’inférence causale s’est intensifié avec l’essor de l’intelligence artificielle et du big data.

Les avantages de l’inférence causale sont sa capacité à aller au-delà des associations pour comprendre le « pourquoi » et à évaluer l’impact potentiel des actions. Cependant, elle comporte des défis et limitations significatifs. Une limitation majeure est la dépendance à des hypothèses souvent non testables empiriquement, comme l’absence de facteurs de confusion non mesurés (l’hypothèse d’ignorabilité). Les conclusions causales sont aussi solides que les hypothèses sur lesquelles elles reposent. Les données observationnelles, bien que plus courantes, sont particulièrement susceptibles aux biais de confusion. La validité externe, c’est-à-dire la généralisation des résultats à d’autres contextes ou populations, peut être limitée. Les méthodes peuvent être complexes et nécessitent une expertise. Des contraintes éthiques peuvent empêcher la réalisation d’expériences randomisées pour certaines questions, obligeant à recourir à des méthodes quasi-expérimentales moins robustes. Enfin, l’établissement d’un lien causal est souvent un processus cumulatif, s’appuyant sur la convergence de preuves multiples plutôt que sur une étude unique.