NeRF (Neural Radiance Fields)
NeRF, acronyme de Neural Radiance Fields, désigne une méthode de pointe en synthèse de nouvelles vues (novel view synthesis) qui utilise des réseaux neuronaux profonds, typiquement des perceptrons multicouches (MLP), pour représenter une scène 3D statique sous la forme d’un champ de radiance volumétrique continu. Cette représentation encode implicitement la géométrie et l’apparence de la scène, permettant la génération d’images photoréalistes de cette scène depuis des points de vue arbitraires, même s’ils n’étaient pas présents dans les données d’entraînement initiales.
Les concepts fondamentaux de NeRF reposent sur la modélisation d’une scène comme une fonction continue 5D. Cette fonction prend en entrée des coordonnées spatiales 3D (x, y, z) et une direction de visualisation 2D (θ, φ) et prédit la couleur (RGB) émise par ce point dans cette direction spécifique, ainsi qu’une densité volumétrique (σ) en ce point. La densité indique la probabilité qu’un rayon lumineux interagisse (soit occulté ou émette de la lumière) à cette position. Pour entraîner le réseau neuronal (le MLP) à approximer cette fonction 5D, NeRF utilise un ensemble d’images 2D d’une scène prises depuis des points de vue connus (avec leurs poses de caméra précises : position et orientation). Le processus d’entraînement optimise les poids du réseau neuronal pour que les images rendues à partir de la représentation NeRF correspondent le mieux possible aux images d’entrée réelles. Le rendu de nouvelles vues se fait par une technique de rendu volumétrique classique : pour chaque pixel de l’image désirée, un rayon est lancé depuis la caméra virtuelle à travers la scène. Des points sont échantillonnés le long de ce rayon. En chaque point échantillonné, le réseau neuronal est interrogé pour obtenir la couleur et la densité. Ces valeurs sont ensuite intégrées numériquement le long du rayon en utilisant les principes du rendu volumétrique (alpha compositing) pour calculer la couleur finale du pixel. Des techniques clés comme l’encodage positionnel (positional encoding) sont utilisées pour aider le MLP à représenter les détails à haute fréquence de la scène, et un échantillonnage hiérarchique (hierarchical volume sampling) est souvent employé pour concentrer les échantillons dans les régions pertinentes de l’espace, améliorant ainsi la qualité et l’efficacité du rendu.
L’importance de NeRF réside dans sa capacité à générer des rendus d’une qualité photoréaliste sans précédent pour la synthèse de nouvelles vues, surpassant souvent les méthodes traditionnelles de photogrammétrie ou de rendu basé sur des maillages pour les scènes complexes avec des effets de vue dépendants (comme les reflets spéculaires). Il a provoqué un changement de paradigme dans la manière dont les scènes 3D peuvent être capturées et représentées numériquement, passant des représentations géométriques explicites (maillages, nuages de points) à des représentations neuronales implicites continues. Son impact est significatif en infographie (computer graphics), en vision par ordinateur (computer vision), en robotique (pour la perception de l’environnement et la simulation), et dans les domaines émergents de la réalité virtuelle (VR) et augmentée (AR), où la capacité à explorer des scènes réelles de manière fluide et réaliste est cruciale.
Les applications pratiques de NeRF sont nombreuses et en pleine expansion. L’application principale est la synthèse de nouvelles vues, permettant de créer des survols (fly-throughs) ou des explorations virtuelles photoréalistes de lieux ou d’objets réels à partir d’un ensemble de photographies. Cela est utilisé pour la préservation du patrimoine culturel, l’immobilier virtuel, le commerce électronique (visualisation de produits sous tous les angles), et le divertissement. NeRF est également utilisé pour la reconstruction 3D implicite, bien que l’extraction d’une surface géométrique explicite (comme un maillage) puisse être moins directe qu’avec d’autres méthodes. Il trouve des applications dans les effets visuels (VFX) pour intégrer des éléments synthétiques dans des scènes réelles ou recréer numériquement des environnements. En robotique, NeRF peut servir à construire des représentations denses de l’environnement pour la navigation ou la manipulation. La création de jumeaux numériques (digital twins) d’objets ou d’environnements complexes est une autre application potentielle. Par exemple, on peut utiliser des photos prises par un drone autour d’un bâtiment pour entraîner un modèle NeRF qui permettra ensuite d’explorer virtuellement ce bâtiment sous n’importe quel angle.
Depuis l’introduction du NeRF original en 2020, de nombreuses variations et améliorations ont été proposées pour pallier ses limitations initiales. On trouve ainsi des approches comme Mip-NeRF, qui améliore la gestion des échelles et réduit les artefacts d’aliasing. Des travaux visent à accélérer considérablement les temps d’entraînement et de rendu (par exemple, Instant-NGP, Plenoxels), rendant NeRF utilisable en temps réel dans certains cas. D’autres variantes s’attaquent à la modélisation de scènes dynamiques (Dynamic NeRF, D-NeRF), à la gestion de conditions d’éclairage variables (NeRF-W, NeRF in the Dark, relightable NeRFs), à la réduction du nombre d’images d’entrée requises (Sparse NeRF), à la gestion de scènes à très grande échelle (Block-NeRF, Mega-NeRF), ou encore à la capacité de généralisation à de nouvelles scènes sans réentraînement complet (Generalizable NeRFs). Il existe aussi des NeRF génératifs (par exemple, utilisant des GANs ou des modèles de diffusion) capables de synthétiser de nouvelles scènes 3D cohérentes. Ces variations montrent la richesse et l’évolutivité du concept de base.
Plusieurs concepts sont étroitement liés à NeRF. Il s’inscrit dans le domaine plus large des représentations neuronales implicites (Implicit Neural Representations ou INR), qui utilisent des réseaux neuronaux pour représenter divers signaux (images, formes 3D, scènes) de manière continue et implicite. Le rendu volumétrique (Volume Rendering) est la technique de rendu fondamentale utilisée par NeRF. La photogrammétrie est une technique alternative et plus ancienne pour la reconstruction 3D à partir d’images, produisant typiquement des représentations explicites comme des nuages de points ou des maillages. La synthèse de nouvelles vues (Novel View Synthesis) est la tâche principale que NeRF accomplit. Les termes synonymes sont rares, mais on pourrait parler de « représentation de scène neuronale » ou de « synthèse de vues basée sur les champs de radiance neuronaux ». Les antonymes conceptuels sont les représentations 3D explicites, telles que les maillages polygonaux (meshes), les nuages de points (point clouds), ou les grilles de voxels (voxel grids), qui définissent explicitement la géométrie de la surface ou du volume.
L’origine de NeRF remonte à l’article « NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis » présenté par Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, et Ren Ng lors de la conférence European Conference on Computer Vision (ECCV) en 2020. Les auteurs provenaient principalement de Google Research, de l’Université de Californie à Berkeley, et de l’Université de Californie à San Diego. Bien que révolutionnaire, NeRF s’appuie sur des décennies de travaux antérieurs en rendu volumétrique, en représentations implicites, et en apprentissage profond appliqué à la vision et au graphisme. Depuis sa publication, le domaine a connu une explosion de recherches, avec des centaines d’articles explorant ses extensions et applications.
NeRF présente de nombreux avantages. Le plus notable est la qualité photoréaliste des rendus, capturant des détails fins et des effets de vue complexes (reflets, semi-transparence) difficiles à modéliser avec les techniques traditionnelles. La représentation est continue et implicite, ce qui peut conduire à des modèles relativement compacts en termes de stockage par rapport à des maillages très détaillés, tout en offrant une résolution théoriquement infinie. Cependant, NeRF a aussi des inconvénients et des défis. Les temps d’entraînement pour le NeRF original étaient très longs (des heures, voire des jours). Les temps de rendu étaient également lents, car ils nécessitaient d’interroger le réseau neuronal des centaines de fois par rayon. NeRF requiert un ensemble dense d’images d’entrée avec des poses de caméra très précises ; sa performance se dégrade avec des données éparses ou des poses imprécises. Le modèle original est limité aux scènes statiques et à un éclairage fixe. La nature implicite de la représentation rend l’édition directe de la scène (par exemple, déplacer un objet) très difficile par rapport aux maillages explicites. Bien que des progrès significatifs aient été réalisés pour pallier ces limitations (vitesse, scènes dynamiques, édition), elles restent des domaines de recherche actifs. La consommation de mémoire pendant l’entraînement peut également être importante.