Définition CycleGAN -

CycleGAN

CycleGAN, abréviation de Cycle-Consistent Adversarial Network, est un type de réseau antagoniste génératif (GAN) conçu pour effectuer des tâches de traduction d’image à image sans nécessiter de paires d’images correspondantes pour l’entraînement. Il permet de transformer une image d’un domaine source A vers un domaine cible B (par exemple, transformer une photo en une peinture de style Van Gogh) et inversement, en apprenant les caractéristiques de chaque domaine à partir d’ensembles d’images non appariées.

Les concepts fondamentaux de CycleGAN reposent sur une architecture ingénieuse et une fonction de perte spécifique. Au cœur du système se trouvent deux générateurs, G_AB et G_BA, et deux discriminateurs, D_A et D_B. Le générateur G_AB apprend à traduire une image du domaine A vers le domaine B, tandis que G_BA apprend la traduction inverse, du domaine B vers le domaine A. Chaque discriminateur est spécialisé : D_A tente de distinguer les vraies images du domaine A des images traduites (fausses) générées par G_BA. De même, D_B tente de distinguer les vraies images du domaine B des images traduites par G_AB. Cette configuration met en place un jeu antagoniste classique où les générateurs s’efforcent de produire des images indiscernables des vraies pour tromper les discriminateurs, et les discriminateurs s’améliorent pour mieux les identifier.

L’innovation cruciale de CycleGAN est l’introduction de la perte de consistance de cycle (cycle consistency loss). Ce concept impose que si une image du domaine A est traduite dans le domaine B par G_AB, puis retraduite dans le domaine A par G_BA, l’image résultante doit être aussi proche que possible de l’image originale. Mathématiquement, cela signifie que G_BA(G_AB(x_A)) ≈ x_A, où x_A est une image du domaine A. De même, pour une image x_B du domaine B, G_AB(G_BA(x_B)) ≈ x_B. Cette perte contraint les générateurs à ne pas simplement produire des images qui ressemblent au domaine cible, mais à préserver le contenu structurel et sémantique de l’image source lors de la traduction, car cette information est nécessaire pour reconstruire l’image originale. Sans cette perte, le modèle pourrait générer des images du domaine cible valides mais sans rapport avec l’image d’entrée.

En plus de la perte antagoniste et de la perte de consistance de cycle, une perte d’identité (identity loss) est souvent utilisée facultativement. Cette perte encourage les générateurs à préserver la teinte et la composition de l’image source lorsque l’image cible est déjà du même domaine. Par exemple, si G_AB reçoit une image déjà du domaine B, elle devrait idéalement la laisser inchangée (G_AB(x_B) ≈ x_B). Cela aide à stabiliser l’entraînement et à améliorer la qualité de la traduction, en particulier pour les tâches de transfert de style où la couleur est importante.

L’importance de CycleGAN réside principalement dans sa capacité à surmonter la contrainte des données appariées. Avant CycleGAN, de nombreuses méthodes de traduction d’image à image, comme Pix2Pix, nécessitaient des ensembles de données où chaque image du domaine source avait une correspondance exacte dans le domaine cible (par exemple, une esquisse et sa photo couleur correspondante). La collecte de telles données est souvent coûteuse, difficile, voire impossible pour de nombreuses applications. CycleGAN a démocratisé la traduction d’image à image en la rendant applicable à une vaste gamme de problèmes où seules des collections d’images non appariées sont disponibles. Son impact a été considérable dans les domaines de la vision par ordinateur, de l’apprentissage automatique et de l’infographie, ouvrant la voie à de nouvelles recherches et applications créatives.

Les applications pratiques de CycleGAN sont nombreuses et variées. L’une des plus célèbres est le transfert de style, où une photographie peut être transformée pour imiter le style d’un peintre célèbre (par exemple, transformer un paysage en une œuvre de Monet ou de Cézanne). Une autre application courante est la transformation d’objets, illustrée par les exemples classiques de transformation de chevaux en zèbres (et vice-versa) ou de pommes en oranges. CycleGAN peut également être utilisé pour l’amélioration de photos, comme changer la saison d’un paysage (été vers hiver), ou ajouter de la pluie à une scène. Dans le domaine médical, il peut servir à harmoniser des images provenant de différents scanners ou protocoles, ou à traduire des images IRM T1 en T2. En robotique, il facilite l’adaptation de domaine, permettant par exemple à un robot entraîné en simulation de mieux fonctionner dans le monde réel en traduisant les images simulées en images plus réalistes. La génération de données synthétiques pour augmenter les ensembles d’entraînement est une autre application précieuse.

Bien que CycleGAN soit un modèle puissant, il existe des nuances dans son fonctionnement et ses résultats. Sa performance dépend de la similarité structurelle entre les deux domaines. Il excelle lorsque les changements sont principalement texturaux ou stylistiques, mais peine avec des transformations géométriques majeures (par exemple, transformer un chat en chien si leurs poses sont très différentes). Le modèle peut parfois introduire des artefacts ou échouer à traduire des détails fins. Le problème de l’effondrement de mode (mode collapse), courant dans les GANs, où le générateur produit une variété limitée d’échantillons, est partiellement atténué par la perte de consistance de cycle, mais peut toujours survenir. Des variations architecturales existent, notamment dans la conception des réseaux générateurs (souvent basés sur des architectures encodeur-décodeur avec des connexions résiduelles) et discriminateurs (souvent des PatchGANs qui évaluent la « réalité » de patchs locaux de l’image plutôt que l’image entière). Des extensions de CycleGAN ont été proposées pour traiter des données non visuelles comme l’audio, ou pour des tâches plus complexes comme la traduction vidéo.

Plusieurs concepts sont étroitement liés à CycleGAN. Le plus fondamental est le Réseau Antagoniste Génératif (GAN), dont CycleGAN est une instance spécialisée. Pix2Pix est un autre algorithme de traduction d’image à image, mais il est supervisé et nécessite des données appariées, ce qui le positionne comme un antonyme conceptuel en termes de supervision des données. Le transfert de style (Style Transfer) est une application majeure, et l’adaptation de domaine (Domain Adaptation) est un champ de recherche où CycleGAN trouve de nombreuses applications. L’apprentissage non supervisé (Unsupervised Learning) est le cadre général dans lequel CycleGAN opère, car il apprend à partir de données non étiquetées ou non appariées. Bien qu’il n’y ait pas de synonymes stricts, « Unpaired Image-to-Image Translation Network » décrit bien sa fonction.

CycleGAN a été introduit en 2017 par Jun-Yan Zhu, Taesung Park, Phillip Isola et Alexei A. Efros dans leur article intitulé « Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks », présenté à l’International Conference on Computer Vision (ICCV). Cette publication est rapidement devenue une référence, s’inscrivant dans une période de foisonnement de la recherche sur les GANs. L’idée de la consistance de cycle n’était pas entièrement nouvelle et avait des parallèles dans d’autres domaines (comme la traduction automatique de langues via la « back-translation »), mais son application aux GANs pour la traduction d’image non appariée fut une percée significative. L’adoption par la communauté scientifique et artistique a été rapide, en raison de sa simplicité conceptuelle relative et de la qualité impressionnante des résultats obtenus.

CycleGAN présente de nombreux avantages. Son atout principal est sa capacité à fonctionner sans données appariées, ce qui élargit considérablement son champ d’application. Les résultats visuels sont souvent de haute qualité et esthétiquement plaisants. De plus, l’entraînement de CycleGAN est généralement considéré comme plus stable que celui de certains autres modèles GAN, en partie grâce à la régularisation apportée par la perte de consistance de cycle. Cependant, le modèle a aussi des inconvénients et des limitations. Il peut introduire des artefacts visuels indésirables ou modifier des éléments de l’image qui ne devraient pas l’être. Les transformations qui impliquent des changements géométriques importants ou des modifications structurelles complexes restent un défi. Par exemple, il ne peut pas transformer un chien en chat si cela nécessite de modifier fondamentalement la forme et la posture de l’animal de manière non triviale. L’entraînement de CycleGAN est coûteux en termes de ressources computationnelles (GPU) et de temps. Un autre défi est l’évaluation quantitative de la qualité des traductions, qui reste souvent subjective et dépendante de la perception humaine. Enfin, la consistance de cycle, bien qu’efficace, ne garantit pas toujours une traduction sémantiquement correcte ; le modèle peut trouver des « raccourcis » pour satisfaire la perte de cycle sans pour autant effectuer la transformation souhaitée de manière fidèle au contenu. Des recherches continuent d’être menées pour surmonter ces limitations et améliorer la robustesse et la polyvalence des approches de traduction d’image non appariée.