Description
La conduite autonome exige des véhicules qu’ils perçoivent leur environnement (véhicules, piétons, feux, etc.) et qu’ils restent fiables sous des conditions changeantes. Lors d’un trajet, par exemple de Clermont-Ferrand à Paris, la météo peut basculer rapidement d’un temps clair à une pluie, du brouillard ou une neige intense. Ces conditions dégradées ne réduisent pas seulement la visibilité : elles modifient aussi l’adhérence (sol mouillé, neige, verglas) et influencent directement la sécurité. C’est précisément l’objectif du projet ROADVIEW (Robust Automated Driving in Extreme Weather) qui finance nos travaux : permettre une perception robuste en météo extrême, en estimant non seulement les objets, mais aussi la météo et ses effets. Or, les méthodes d’apprentissage auto-supervisé (SSL) comme MoCo ou DINO apprennent des features robustes en rendant les représentations invariantes aux variations d’apparence. Leurs augmentations et objectifs d’invariance poussent ainsi le modèle à atténuer des effets tels que l’illumination, la réflectance ou les micro-textures liées à la pluie et à la neige. Pourtant, pour l’analyse météorologique, ces indices d’apparence constituent souvent le signal discriminant (striures de pluie, granulosité de neige, diffusion atmosphérique, reflets et halos) : les rendre invariants peut donc supprimer l’information pertinente. Nous introduisons ST-STORM, un cadre SSL hybride qui modélise la météo comme une composante de style à désenchevêtrer du contenu. L’architecture apprend deux flux latents régulés par des mécanismes de gating : (i) une branche Contenu, fondée sur une architecture JEPA couplée à un objectif contrastif pour garantir la stabilité sémantique, et (ii) une branche Style, contrainte à encoder des signatures météorologiques (notamment spectrales) via une prédiction de features de type JEPA et une reconstruction guidée par synthèse adversariale et pertes fréquentielles (FFT). Nous évaluons ST-STORM sur la détection fine d’attributs météorologiques (type, intensité, visibilité, état du sol). Préentraîné sur 250000 images de Weather MultiTask Datasets puis gelé et fine-tuné en multitâche sur 10% des données (25000 images), notre modèle atteint 96% (score global) en exploitant ses features stylistiques, contre 87% (F1 global) pour JEPA et ∼90% (F1 global) pour MoCo-v3 à protocole identique. Ces résultats montrent que les indices d’apparence sont centraux pour la météorologie, et que le désenchevêtrement spectral permet de les préserver tout en maintenant une représentation de contenu robuste pour l’analyse de scènes complexes.