Outlier
Un outlier, terme anglais souvent traduit par donnée aberrante, valeur extrême ou anomalie, désigne une observation ou une valeur dans un ensemble de données qui diffère de manière significative des autres observations. Il s’agit d’un point de données qui se situe à une distance anormale des autres valeurs dans un échantillon aléatoire issu d’une population.
Les concepts fondamentaux associés aux outliers reposent sur la compréhension de la distribution des données. Dans la plupart des ensembles de données, les valeurs tendent à se regrouper autour d’une tendance centrale (comme la moyenne ou la médiane) et présentent une certaine dispersion (mesurée par l’écart-type ou l’intervalle interquartile, par exemple). Un outlier est une donnée qui s’écarte considérablement de cette tendance centrale, se trouvant souvent dans les « queues » de la distribution. L’identification d’un outlier implique généralement de définir un seuil au-delà duquel une observation est considérée comme anormale. Ce seuil peut être basé sur des mesures statistiques comme le Z-score (nombre d’écarts-types par rapport à la moyenne) ou l’intervalle interquartile (IQR). Les outliers peuvent exister dans des données unidimensionnelles (une seule variable mesurée) ou multidimensionnelles (plusieurs variables mesurées pour chaque observation), où une observation peut sembler normale pour chaque variable individuelle mais aberrante lorsqu’on considère les variables conjointement.
L’importance des outliers est considérable dans de nombreux domaines car ils peuvent avoir un impact disproportionné sur les analyses statistiques et les modèles prédictifs. Une seule valeur extrême peut fortement influencer la moyenne, la variance, les coefficients de corrélation et les résultats d’une régression linéaire, menant potentiellement à des conclusions erronées ou à des modèles peu fiables. Leur pertinence réside dans ce qu’ils peuvent révéler : ils peuvent signaler des erreurs de mesure ou de saisie de données, indiquer une violation des hypothèses sous-jacentes à une analyse statistique, représenter une variabilité naturelle inhérente au phénomène étudié, ou, plus intéressant encore, mettre en évidence un événement rare, une nouveauté ou un comportement inattendu qui mérite une investigation approfondie. Ignorer les outliers peut conduire à une mauvaise compréhension des données, tandis que leur analyse attentive peut offrir des perspectives précieuses. L’impact se ressent en finance, en assurance, en médecine, en contrôle industriel, en sciences sociales, en science des données, et dans toute discipline manipulant des données quantitatives.
Les applications pratiques de la détection et de l’analyse des outliers sont variées. En finance, elle est cruciale pour la détection de fraudes (transactions bancaires atypiques) ou la gestion des risques (événements de marché extrêmes). En médecine, elle permet d’identifier des réactions inhabituelles de patients à des traitements ou des anomalies dans des signaux physiologiques (ECG, EEG). Dans le contrôle qualité industriel, elle sert à repérer les produits défectueux sortant des normes de production. En cybersécurité, elle aide à détecter les intrusions ou les comportements suspects sur un réseau. En sciences environnementales, elle peut signaler des pics de pollution ou des événements climatiques extrêmes. En science des données et en apprentissage automatique, la gestion des outliers est une étape clé du prétraitement des données : selon le contexte, ils peuvent être supprimés, transformés (par exemple, par winsorisation) ou traités à l’aide d’algorithmes robustes moins sensibles à leur présence, afin d’améliorer la performance et la généralisation des modèles. Par exemple, une dépense par carte de crédit exceptionnellement élevée dans un pays étranger peut déclencher une alerte de fraude. Un relevé de température anormalement bas pour une saison peut indiquer un dysfonctionnement de capteur ou un phénomène météorologique rare.
Il existe différentes nuances et interprétations du concept d’outlier. La définition précise peut varier selon le contexte et la méthode de détection employée. Ce qui est considéré comme un outlier n’est pas toujours objectif et peut dépendre du seuil choisi par l’analyste. On distingue parfois plusieurs types d’outliers : les outliers globaux sont aberrants par rapport à l’ensemble du jeu de données ; les outliers contextuels (ou conditionnels) sont anormaux dans un contexte spécifique (par exemple, une dépense de 100€ en restaurant peut être normale pour un adulte mais un outlier pour un enfant) ; les outliers collectifs désignent un sous-ensemble d’observations qui, prises ensemble, sont aberrantes, même si individuellement elles ne le sont pas forcément. La cause d’un outlier est également une nuance importante : est-ce une simple erreur ou une information précieuse sur un phénomène rare ? L’interprétation correcte nécessite souvent une expertise du domaine concerné.
Plusieurs concepts sont étroitement liés aux outliers. Le terme « anomalie » est souvent utilisé comme synonyme, en particulier dans le domaine de la détection d’anomalies. « Valeur aberrante » et « valeur extrême » sont également des synonymes courants. Le concept de « point influent » en régression désigne un point qui, s’il est retiré, modifie substantiellement l’estimation du modèle ; un outlier peut être un point influent, mais ce n’est pas toujours le cas, et inversement. Le « bruit » dans les données peut parfois se manifester sous forme d’outliers, mais il désigne plus largement toute composante aléatoire non désirée. Les « statistiques robustes » sont des méthodes conçues pour être moins affectées par les outliers. Des outils comme la « boîte à moustaches » (boxplot), le « Z-score » et la « distance de Mahalanobis » sont utilisés pour leur détection. À l’opposé conceptuel, on trouve les « données typiques », les « observations centrales » ou parfois le terme « inlier » pour désigner les points qui ne sont pas des outliers.
Bien que l’identification informelle des observations discordantes soit probablement aussi ancienne que la collecte de données elle-même, l’étude formelle des outliers s’est développée avec la statistique moderne. Les travaux sur la loi normale et la théorie des erreurs aux 18ème et 19ème siècles ont posé les bases pour identifier les observations s’écartant des attentes. Des statisticiens comme Benjamin Peirce et plus tard Frank Grubbs ont proposé des tests statistiques spécifiques pour détecter les outliers. L’avènement de l’informatique et l’explosion des volumes de données (Big Data) au 20ème et 21ème siècles ont rendu la détection et le traitement des outliers encore plus cruciaux et ont stimulé le développement de nombreuses méthodes algorithmiques sophistiquées, notamment dans les domaines de l’exploration de données (data mining) et de l’apprentissage automatique (machine learning).
La présence et la gestion des outliers comportent des avantages et des inconvénients. L’avantage principal de leur détection est la possibilité d’identifier et de corriger des erreurs dans les données, d’améliorer la qualité et la fiabilité des analyses statistiques et des modèles prédictifs, et surtout de découvrir des informations potentiellement critiques ou de nouveaux phénomènes (fraude, défaut, événement rare). Cependant, leur gestion présente des défis. Leur identification n’est pas toujours simple et dépend de la méthode et des seuils choisis. Il existe un risque de supprimer à tort des données valides qui représentent une variabilité naturelle ou un événement rare mais authentique, ce qui peut appauvrir l’analyse. Les outliers peuvent biaiser de nombreuses mesures statistiques standard, nécessitant l’utilisation de méthodes robustes ou un traitement spécifique. L’interprétation de la signification d’un outlier requiert souvent une connaissance approfondie du domaine d’application. Enfin, traiter les outliers dans des jeux de données de grande dimension ou très volumineux pose des défis computationnels et méthodologiques importants. La décision de supprimer, transformer ou conserver un outlier doit être prise avec soin, en considérant ses causes potentielles et l’objectif de l’analyse.