Définition Dual-Domain Masked Image Modeling -

Dual-Domain Masked Image Modeling

Le Dual-Domain Masked Image Modeling (Modélisation d’Images Masquées Double Domaine) est une technique d’apprentissage auto-supervisé en vision par ordinateur qui consiste à entraîner un modèle à prédire ou reconstruire des parties manquantes (masquées) d’une image en utilisant des informations provenant de deux domaines de représentation distincts simultanément ou de manière complémentaire. L’objectif est d’apprendre des représentations visuelles plus riches et robustes en exploitant les synergies et les complémentarités entre ces différents domaines.

Au cœur du Dual-Domain Masked Image Modeling se trouve le concept de Masked Image Modeling (MIM). Le MIM est une approche d’apprentissage auto-supervisé où une partie significative d’une image d’entrée est délibérément cachée ou corrompue (masquée), et le modèle est entraîné à reconstruire le contenu original de ces parties masquées. Cela force le modèle à comprendre le contexte et la structure sous-jacente de l’image pour effectuer une prédiction plausible, apprenant ainsi des caractéristiques visuelles utiles sans nécessiter d’étiquettes manuelles.

La notion de « domaine » en traitement d’image fait référence à différentes façons de représenter ou d’analyser les informations contenues dans une image. Les domaines courants incluent le domaine spatial (ou domaine pixel), qui représente l’image comme une grille de valeurs de pixels ; le domaine fréquentiel, qui représente l’image en termes de ses composantes de fréquence (par exemple, via une transformée de Fourier) ; et le domaine des caractéristiques, qui peut être un espace de représentations appris par le modèle lui-même, ou un espace discret de « tokens » visuels sémantiques obtenus par une étape de tokenization préalable.

Le terme « Dual-Domain » signifie que la tâche de modélisation masquée n’opère pas seulement dans un seul de ces domaines (par exemple, prédire des pixels masqués à partir de pixels visibles), mais exploite activement deux domaines. Par exemple, un modèle pourrait être entraîné à prédire des pixels masqués (domaine spatial) tout en prédisant simultanément les coefficients de Fourier masqués correspondants (domaine fréquentiel). Une autre approche pourrait consister à prédire des pixels masqués en se basant non seulement sur les pixels visibles mais aussi sur des représentations sémantiques discrètes (tokens visuels) de l’image.

Le mécanisme implique généralement le masquage d’une partie de l’image d’entrée dans au moins un des domaines. Le modèle, souvent une architecture de type Transformer (comme un Vision Transformer), traite les informations visibles des deux domaines et est entraîné, via une fonction de perte appropriée, à prédire le contenu masqué dans un ou les deux domaines. La manière dont les informations des deux domaines sont intégrées et utilisées pour la prédiction varie selon les implémentations spécifiques, mais l’idée est de bénéficier de leur complémentarité.

L’importance du Dual-Domain Masked Image Modeling réside dans sa capacité à surmonter certaines limitations des approches MIM mono-domaine. Le MIM focalisé uniquement sur la reconstruction de pixels peut encourager le modèle à se concentrer sur des détails de bas niveau et des textures locales, au détriment potentiellement de la compréhension globale ou sémantique. En introduisant un second domaine, comme le domaine fréquentiel qui capture des informations globales ou structurelles, ou un domaine de tokens sémantiques qui représente des concepts de plus haut niveau, l’apprentissage peut être guidé vers des représentations plus équilibrées et holistiques.

Cette approche vise à améliorer la qualité des représentations visuelles apprises. En forçant le modèle à être cohérent à travers différents domaines de représentation, on espère obtenir des caractéristiques plus robustes aux variations, mieux généralisables à différentes tâches en aval, et capturant une gamme plus large d’informations, allant des détails fins aux structures globales et aux concepts sémantiques.

L’impact principal se mesure par l’amélioration des performances des modèles pré-entraînés avec cette méthode sur diverses tâches de vision par ordinateur. Des modèles initialisés avec des poids appris via Dual-Domain MIM montrent souvent de meilleures capacités de transfert et atteignent des performances supérieures en classification d’images, détection d’objets, segmentation sémantique, et autres benchmarks standards, par rapport aux modèles pré-entraînés avec des méthodes MIM mono-domaine ou d’autres techniques d’auto-supervision.

Une application majeure est le pré-entraînement de grands modèles de fondation en vision, notamment les Vision Transformers. Ces modèles nécessitent d’énormes quantités de données pour l’entraînement, et l’auto-supervision via Dual-Domain MIM permet d’exploiter de vastes corpus d’images non étiquetées pour apprendre des représentations visuelles puissantes avant un affinage (fine-tuning) sur des tâches spécifiques avec moins de données étiquetées.

Cette technique trouve des applications dans des domaines où la complémentarité des informations est particulièrement pertinente. En imagerie médicale, par exemple, combiner l’analyse spatiale des pixels avec l’analyse fréquentielle pourrait aider à mieux détecter des anomalies subtiles qui se manifestent différemment dans les deux domaines. De même, pour l’analyse de textures complexes ou de scènes naturelles, la combinaison d’informations locales et globales issues de différents domaines peut s’avérer bénéfique.

Il existe plusieurs nuances et variations du Dual-Domain Masked Image Modeling. La principale variation concerne le choix des deux domaines utilisés : pixel et fréquence, pixel et tokens visuels discrets (appris via un VQ-VAE par exemple), ou même fréquence et tokens visuels. Chaque combinaison offre un équilibre différent entre informations de bas et haut niveau, locales et globales.

Les stratégies de masquage peuvent également varier. Le masquage peut être appliqué de manière identique ou différente dans les deux domaines. La tâche de reconstruction peut cibler un seul domaine (par exemple, reconstruire les pixels en utilisant les informations visibles des deux domaines) ou les deux domaines simultanément (reconstruire les pixels masqués et les représentations masquées du second domaine). Les fonctions de perte doivent être conçues pour équilibrer les objectifs de reconstruction dans les différents domaines.

Plusieurs concepts sont étroitement liés au Dual-Domain Masked Image Modeling. Le Masked Image Modeling (MIM) en est le fondement direct. L’Apprentissage Auto-Supervisé (Self-Supervised Learning, SSL) est le paradigme d’apprentissage plus large auquel il appartient. Les Vision Transformers (ViT) sont l’architecture de modèle la plus couramment associée à cette technique. Les Autoencodeurs Dénaturants partagent l’idée de reconstruire une entrée corrompue. L’Analyse Fréquentielle (Transformée de Fourier, Ondelettes) est pertinente si le domaine fréquentiel est utilisé. La Tokenization Visuelle est clé si un domaine de tokens discrets est employé. On peut le contraster avec l’apprentissage supervisé (qui nécessite des étiquettes) et le MIM mono-domaine (qui n’exploite qu’un seul domaine pour la reconstruction).

Historiquement, le Masked Image Modeling a gagné en popularité en vision par ordinateur comme une alternative ou un complément aux méthodes d’apprentissage contrastif, s’inspirant du succès du Masked Language Modeling (comme BERT) dans le traitement du langage naturel. Les premières approches MIM se sont souvent concentrées sur la reconstruction dans le domaine pixel (par exemple, MAE) ou dans un espace de tokens visuels discrets (par exemple, BEiT).

L’émergence du Dual-Domain MIM est une évolution plus récente, motivée par la recherche de représentations encore plus performantes. Les chercheurs ont constaté que la focalisation sur un seul domaine pouvait avoir ses limites et ont proposé de combiner les forces de différents domaines pour capturer un spectre plus large d’informations visuelles, conduisant au développement d’architectures et de méthodes d’entraînement exploitant explicitement deux domaines.

Les avantages du Dual-Domain Masked Image Modeling incluent potentiellement l’apprentissage de représentations plus riches, plus robustes et mieux généralisables, capables de capturer à la fois les détails fins et la structure globale ou sémantique. Cela peut se traduire par de meilleures performances sur les tâches en aval et une meilleure efficacité des données lors du pré-entraînement. La complémentarité des domaines peut aider le modèle à mieux comprendre les relations complexes au sein des images.

Cependant, cette approche présente aussi des inconvénients et des défis. La conception et l’entraînement des modèles sont plus complexes, nécessitant de gérer les interactions et l’équilibre entre les deux domaines. Le coût computationnel peut être plus élevé que celui du MIM mono-domaine, en raison de la nécessité de traiter et de prédire dans deux espaces de représentation. Le choix optimal des deux domaines et la manière de les combiner efficacement pour une tâche donnée ne sont pas toujours évidents et peuvent nécessiter une exploration empirique approfondie. Il existe également un risque que les informations des deux domaines soient partiellement redondantes ou même contradictoires, ce qui pourrait nuire à l’apprentissage si ce n’est pas géré correctement par la fonction de perte et l’architecture du modèle.