Post-hoc Interpretability
L’interprétabilité post-hoc désigne l’ensemble des méthodes et techniques utilisées pour expliquer les prédictions ou le comportement d’un modèle d’apprentissage automatique après qu’il a été entraîné. Ces techniques sont appliquées à des modèles existants, souvent considérés comme des « boîtes noires » en raison de leur complexité interne qui rend leur fonctionnement difficile à comprendre directement.
Les concepts fondamentaux de l’interprétabilité post-hoc reposent sur l’analyse a posteriori. Plutôt que de construire un modèle intrinsèquement simple et compréhensible, on prend un modèle potentiellement très complexe et performant, puis on utilise des outils externes pour sonder et comprendre comment il parvient à ses résultats pour des entrées spécifiques ou pour son comportement général. Le principe essentiel est de découpler le processus d’entraînement du modèle du processus d’explication de ses décisions. Ces méthodes traitent souvent le modèle comme une fonction qui prend des entrées et produit des sorties, sans nécessairement nécessiter une connaissance détaillée de son architecture interne ou de ses paramètres, ce qui les rend « agnostiques au modèle » dans de nombreux cas.
L’importance de l’interprétabilité post-hoc est considérable et croissante dans de nombreux domaines. Elle est cruciale pour établir la confiance des utilisateurs et des parties prenantes dans les systèmes d’IA, en particulier dans les secteurs à haut risque comme la santé, la finance ou la justice. Comprendre pourquoi un modèle prend une décision spécifique permet de le déboguer plus efficacement, d’identifier et de corriger les biais indésirables qu’il pourrait avoir appris à partir des données. De plus, des réglementations comme le RGPD en Europe introduisent un « droit à l’explication » pour les décisions prises par des systèmes automatisés, rendant l’interprétabilité post-hoc essentielle pour la conformité légale. Elle favorise également la découverte scientifique en révélant de nouvelles relations dans les données et permet une meilleure collaboration homme-machine.
Les applications pratiques de l’interprétabilité post-hoc sont variées. En finance, elle peut servir à expliquer pourquoi une demande de prêt a été refusée, conformément aux exigences réglementaires. Dans le domaine médical, elle aide les médecins à comprendre sur quels facteurs un modèle d’IA base son diagnostic (par exemple, quelles zones d’une image médicale sont jugées suspectes). Pour les véhicules autonomes, elle peut analyser pourquoi le système a décidé de freiner ou de tourner dans une situation donnée. Des techniques spécifiques comme LIME (Local Interpretable Model-agnostic Explanations) génèrent des explications locales en approximant le comportement du modèle autour d’une prédiction spécifique à l’aide d’un modèle plus simple et interprétable. SHAP (SHapley Additive exPlanations) utilise des concepts de la théorie des jeux pour attribuer l’impact de chaque caractéristique sur la prédiction finale. Dans le traitement d’images, les cartes de saillance (saliency maps) mettent en évidence les pixels qui ont le plus contribué à une classification donnée.
Il existe différentes nuances dans l’interprétabilité post-hoc. Une distinction majeure est faite entre les méthodes locales, qui expliquent une prédiction individuelle, et les méthodes globales, qui tentent de décrire le comportement général du modèle. Une autre distinction concerne les méthodes spécifiques au modèle, qui tirent parti de la connaissance de l’architecture interne (par exemple, pour les réseaux de neurones), et les méthodes agnostiques au modèle, qui peuvent être appliquées à n’importe quel type de modèle. Il est aussi important de considérer la notion de « fidélité » de l’explication post-hoc : dans quelle mesure l’explication reflète-t-elle réellement le processus de décision interne du modèle complexe ? Une explication peut être compréhensible mais infidèle, ou fidèle mais complexe. Le terme « explicabilité » est souvent utilisé comme synonyme, bien que certains chercheurs différencient l’interprétabilité (compréhension du fonctionnement mécanique) de l’explicabilité (fourniture d’une explication compréhensible par l’homme, souvent sémantique).
L’interprétabilité post-hoc est un sous-domaine de l’Interprétabilité de l’IA (Explainable AI – XAI). Elle s’oppose directement à l’interprétabilité intrinsèque (ou ante-hoc), qui concerne les modèles conçus dès le départ pour être transparents et compréhensibles (par exemple, les arbres de décision peu profonds, la régression linéaire). Les modèles « boîte noire » (comme les réseaux de neurones profonds, les forêts aléatoires complexes, les machines à vecteurs de support avec certains noyaux) sont l’objet principal des techniques post-hoc. Les concepts de fidélité (fidelity), de robustesse (robustness, la stabilité de l’explication face à de petites perturbations de l’entrée) et de compréhensibilité (understandability) sont étroitement liés à l’évaluation des méthodes post-hoc.
L’intérêt pour l’interprétabilité post-hoc a fortement augmenté avec l’avènement et le succès des modèles d’apprentissage profond (deep learning) au début des années 2010. Ces modèles, bien que très performants sur de nombreuses tâches complexes (vision par ordinateur, traitement du langage naturel), sont notoirement difficiles à interpréter. Face à la nécessité de déployer ces modèles dans des applications critiques et à la demande croissante de transparence et de responsabilité, la communauté de recherche a développé un large éventail de techniques post-hoc pour tenter de combler ce fossé entre performance et compréhensibilité.
Les avantages de l’interprétabilité post-hoc incluent sa flexibilité : elle peut être appliquée à n’importe quel modèle déjà entraîné, sans avoir à le modifier ou à le ré-entraîner, permettant ainsi d’utiliser les modèles les plus performants disponibles. Cependant, elle présente aussi des inconvénients et des défis importants. La principale limitation est que les explications générées sont des approximations ou des observations du comportement du modèle, et non une garantie de compréhension de ses mécanismes internes réels. Il existe un risque que ces méthodes produisent des « rationalisations » plausibles mais incorrectes. La fidélité de l’explication par rapport au modèle original est souvent difficile à évaluer quantitativement. Certaines méthodes peuvent être coûteuses en termes de calcul, en particulier pour les modèles très grands ou les grands ensembles de données. De plus, les explications elles-mêmes peuvent être sensibles à de légères variations dans les données d’entrée, soulevant des questions sur leur robustesse. Enfin, une explication post-hoc ne prouve généralement pas de relations causales, mais seulement des corrélations ou des importances relatives apprises par le modèle.