Covariance
La covariance est une mesure statistique qui quantifie la direction et la force de la relation linéaire entre deux variables aléatoires. Elle indique si les deux variables tendent à augmenter ou diminuer simultanément (covariance positive), ou si l’une tend à augmenter lorsque l’autre diminue (covariance négative). Une covariance proche de zéro suggère une absence de relation linéaire entre les deux variables.
Les concepts fondamentaux et les principes essentiels associés à la covariance reposent sur la manière dont les valeurs de deux variables s’écartent conjointement de leurs moyennes respectives. La formule mathématique de la covariance entre deux variables X et Y, notée Cov(X, Y) ou σ_XY, est l’espérance mathématique du produit des écarts de chaque variable par rapport à sa moyenne : Cov(X, Y) = E[(X – E[X])(Y – E[Y])], où E[X] représente l’espérance (la moyenne théorique) de X. Pour un ensemble de données observées (x_i, y_i) de taille n, la covariance d’échantillon est calculée comme s_xy = Σ[(x_i – x̄)(y_i – ȳ)] / (n-1), où x̄ et ȳ sont les moyennes des échantillons. Le diviseur (n-1) est utilisé pour assurer un estimateur non biaisé de la covariance de la population. Le principe sous-jacent est que si les deux variables ont tendance à être simultanément au-dessus ou en dessous de leurs moyennes, les produits des écarts seront majoritairement positifs, résultant en une covariance positive. Inversement, si une variable tend à être au-dessus de sa moyenne lorsque l’autre est en dessous, les produits des écarts seront majoritairement négatifs, conduisant à une covariance négative.
L’importance de la covariance réside dans sa capacité à décrire la relation entre des variables, ce qui est fondamental dans de nombreux domaines scientifiques et appliqués. En statistique et en théorie des probabilités, elle constitue la pierre angulaire de plusieurs techniques d’analyse multivariée. Par exemple, en finance, la covariance entre les rendements des actifs est essentielle pour la théorie moderne du portefeuille, permettant aux investisseurs de construire des portefeuilles diversifiés qui minimisent le risque pour un niveau de rendement donné. Dans les sciences sociales, elle peut aider à comprendre les interrelations entre différents indicateurs sociaux ou économiques. En ingénierie et en sciences physiques, elle est utilisée pour analyser la variabilité conjointe de mesures ou de signaux. Son impact se voit également dans son rôle de composant de base pour le calcul du coefficient de corrélation, une mesure standardisée plus facile à interpréter, et dans la construction de matrices de variance-covariance, indispensables pour des méthodes comme l’analyse en composantes principales (ACP) ou l’analyse factorielle.
Les applications pratiques de la covariance sont nombreuses et variées. Dans le secteur financier, elle est utilisée quotidiennement pour évaluer le risque de portefeuilles d’investissement. Si deux actions ont une covariance positive élevée, elles sont susceptibles de fluctuer dans la même direction, ce qui augmente le risque global du portefeuille si celui-ci est concentré sur ces actions. Les gestionnaires de fonds cherchent donc à combiner des actifs avec des covariances faibles ou négatives. En marketing, l’analyse de la covariance des comportements d’achat peut révéler des associations entre produits. Par exemple, une covariance positive entre l’achat de pain et l’achat de beurre peut suggérer des stratégies de promotion conjointe ou de placement en magasin. En biologie, la covariance entre différents traits morphologiques ou physiologiques peut aider à comprendre les syndromes évolutifs ou les contraintes de développement. Par exemple, étudier la covariance entre la longueur des ailes et la longueur des pattes chez une espèce d’oiseau. En météorologie, on peut calculer la covariance entre la température et l’humidité pour mieux comprendre les dynamiques atmosphériques, bien que ces relations soient souvent complexes et pas uniquement linéaires.
Il existe plusieurs nuances et interprétations importantes concernant la covariance. Premièrement, la covariance mesure uniquement la relation linéaire entre deux variables. Deux variables peuvent être fortement liées par une relation non linéaire (par exemple, une relation quadratique) tout en ayant une covariance nulle ou très faible. Deuxièmement, la magnitude de la covariance est exprimée dans les unités du produit des deux variables (par exemple, si X est en kilogrammes et Y en mètres, Cov(X,Y) sera en kilogrammes-mètres). Cela rend difficile la comparaison de la force des relations entre différentes paires de variables si leurs unités sont différentes. C’est une des raisons pour lesquelles le coefficient de corrélation, qui est sans unité, est souvent préféré pour interpréter la force de la relation. Troisièmement, il est important de distinguer la covariance de population, qui est un paramètre théorique, de la covariance d’échantillon, qui est une estimation calculée à partir de données. Enfin, la matrice de covariance (ou matrice de variance-covariance) est une généralisation de la covariance à plusieurs variables. C’est une matrice carrée où l’élément (i,j) est la covariance entre la i-ème et la j-ème variable, et les éléments diagonaux sont les variances de chaque variable (Cov(X,X) = Var(X)).
Plusieurs concepts sont étroitement liés à la covariance. Le plus direct est le coefficient de corrélation de Pearson, qui est la covariance des deux variables divisée par le produit de leurs écarts-types. Cette normalisation produit une valeur comprise entre -1 et +1, indépendante des unités de mesure originales, facilitant l’interprétation de la force et de la direction de la relation linéaire. La variance est un cas spécial de la covariance, représentant la covariance d’une variable avec elle-même (Var(X) = Cov(X,X)). Elle mesure la dispersion d’une seule variable. L’indépendance statistique est un autre concept important : si deux variables sont statistiquement indépendantes, leur covariance est nulle. Cependant, la réciproque n’est pas toujours vraie. Une covariance nulle indique seulement l’absence de relation linéaire, mais il peut exister une relation non linéaire. Ce n’est que dans le cas particulier où les variables suivent une distribution normale multivariée qu’une covariance nulle implique l’indépendance. Il n’y a pas d’antonyme direct pour « covariance » dans le sens d’une mesure opposée ; on parle plutôt de covariance positive, négative ou nulle.
L’origine du concept de covariance est intimement liée au développement de la statistique moderne à la fin du 19ème siècle. Le biologiste et statisticien britannique Francis Galton a été l’un des pionniers, introduisant l’idée de « co-relation » dans ses études sur l’hérédité, observant par exemple comment la taille des parents était liée à celle de leurs enfants. Son travail a été formalisé et étendu par le mathématicien Karl Pearson, qui a développé la formulation mathématique précise de la covariance et du coefficient de corrélation (souvent appelé coefficient de corrélation de Pearson). Ces outils ont révolutionné la manière d’analyser les données dans de nombreux domaines. Plus tard, au début et au milieu du 20ème siècle, des statisticiens comme Ronald A. Fisher ont contribué à l’intégration de la covariance et des matrices de covariance dans le cadre plus large de l’analyse statistique multivariée, jouant un rôle clé dans des méthodes comme l’analyse de la variance (ANOVA) et l’analyse discriminante.
La covariance présente plusieurs avantages, mais aussi des inconvénients, des défis et des limitations. Parmi les avantages, elle fournit une mesure quantitative de la direction de la relation linéaire entre deux variables. Elle est un composant essentiel pour des analyses plus sophistiquées, notamment le calcul du coefficient de corrélation, la construction de modèles de régression et la réalisation d’analyses en composantes principales. Sa formule est relativement simple, et son calcul à partir d’un échantillon est direct. Cependant, un inconvénient majeur est que sa valeur dépend des unités de mesure des variables, ce qui rend l’interprétation de sa magnitude absolue difficile et les comparaisons entre différentes paires de variables ardues. Une autre limitation significative est qu’elle ne capture que les relations linéaires ; elle peut être nulle même si une forte relation non linéaire existe. La covariance est également sensible aux valeurs aberrantes (outliers) dans les données, qui peuvent fausser considérablement sa valeur. Un défi important réside dans l’estimation fiable des matrices de covariance, surtout lorsque le nombre de variables est grand par rapport au nombre d’observations (problème de « haute dimensionnalité »), pouvant mener à des matrices instables ou non inversibles. Enfin, il est crucial de se rappeler que la covariance, comme la corrélation, mesure une association statistique et n’implique pas de causalité. Une covariance observée entre deux variables peut être due à l’influence d’une troisième variable non observée (facteur de confusion).