Centre d'Enseignement et de Recherche en Environnement Atmosphérique

Joint Laboratory of Ecole des Ponts ParisTech/EDF R&D

EDF

Un bref aperçu de l’activité Assimilation de Données au CEREA

L'assimilation de données de données est un des trois axes de recherche du CEREA. Il s'agit de combiner de façon mathématiquement optimale des observations portant sur un système géophysique avec des sorties d'un modèle numérique de la dynamique de ce système. Les techniques de l'assimilation de données ont par exemple permis la mise en oeuvre de prévisions numériques météorologiques de grande précision (dans des centres de prévision opérationnels tels que Météo-France). Elles sont aujourd'hui appliquées dans de nombreux domaines des géosciences : océan, surfaces continentales, climat, cryosphère, chimie atmosphérique, qualité de l'air, etc; et parfois au-delà (voir Asch et al., 2016). Les méthodes les plus emblématiques sont le 3D-Var (approche variationnelle agissant à un temps fixé) le 4D-Var (approche variationnelle issue du contrôle optimal appliquée sur une fenêtre temporelle) et le filtre de Kalman d'ensemble (EnKF, construit à partir du filtre de Kalman).
Enchaînement dans le temps des cycles de la méthode d’assimilation de données 3D-Var. On cherche à estimer au mieux la vérité (truth), à l’aide d’une prévision antérieure (forecast) obtenue d’un modèle numérique et d’observations. Le résultat est l’analyse (analysis).

Au CEREA, nous nous intéressons en particlier aux aspects théoriques de ces méthodes. Il peut s'agir de démontrer par les mathématiques des propriétés des méthodes d'assimilation de données ; on veut par exemple comprendre l'impact de la dynamique sur la précision de l'assimilation de données (Bocquet et al., 2017). Il s'agit cependant le plus souvent de construire de nouveaux algorithmes permettant d'atteindre une plus grande précision ou bien une meilleure efficacité numérique (nous sommes en géosciences dans un contexte de Big Data et la complexité numérique est donc critique).
Score de RMSE permettant de juger de la précision d’une méthode d’assimilation de données, ici le lisseur de Kalman itératif (IEnKS), comparé au 4D-Var et au lisseur de Kalman d’ensemble (Bocquet et Sakov, 2013).

Exemple typique d’algorithme d’assimilation de données. Ici, il s’agit de l’IEnKS (Haussaire et Bocquet, 2016).

Pour réaliser la fusion d'une quantité massive de données et des sorties de modèles numériques de taille très conséquente, les algorithmes de l'assimilation de données étaient initialement simples, faisant principalement appel à la théorie de l'estimation linéaire. Avec la croissance des moyens de calculs et la démocratisation d'approches formelles plus sophistiquées, les méthodes se sont complexifiées et traitent aujourd'hui de dynamiques modérément non-linéaires et de statistiques sous-jacentes non-gaussiennes. Sur le plan théorique, nous avons par exemple oeuvré à l'unification des deux grands familles de méthodes, variationnelle et statistique (filtrage d'ensemble), et proposé les premières méthodes non-linéaires bâties sur une analyse variationnelle dans l'espace d'une ensemble de trajectoires. Nous avons proposé des méthodes rigoureuses permettant de corriger certains défauts de fabrique du filtre de Kalman d'ensemble. Par exemple la faible taille de l'ensemble de l'EnKF engendre des erreurs dites d'échantillonnage qui mettent en péril la stabilité de la méthode et requiert l'utilisation d'une inflation de l'incertitude estimée. Nous avons montré comment s'abstraire de ce besoin d'inflation (Bocquet, 2011 ; Bocquet et al., 2015). Au CEREA, nous nous intéressons également à l'application de ces méthodes aux géosciences. En particulier, de nombreux de nos travaux portent sur la dispersion atmosphérique, la chimie atmosphérique et la qualité de l'air. Par exemple, nous avons étudié l'impact de la donnée lidar sur la prévision des aérosols, et prouvé ainsi son utilité (Wang et al., 2013-2014).
Diagramme décrivant l’opérateur d’observation utilisé dans l’assimilation des observations lidar.

Résultat caractéristique d’une analyse effectuée à l’aide de données lidar et du modèle d’aérosol de Polyphemus et comparaison à une simulation sans assimilation (Wang et al., 2014).

Pour certains de ces problèmes, l'assimilation de données s'identifie à un problème inverse, qu’on appelle aussi modélisation inverse par abus de langage. En particulier nous nous intéressons à l'estimation des flux d'émission de polluants, comme les composés organiques volatils, les gaz à effet de serre, les précurseurs de l'ozone, etc. Nous travaillons également à l'estimation du terme source atmosphérique émis lors d'un accident industriel ou nucléaire, comme les accidents de Tchernobyl et Fukushima-Daiichi; des recherches que nous menons avec nos partenaires de l'Institut de Radioprotection et de Sûreté Nucléaire (IRSN). Nous avons par exemple non seulement estimé le terme source de ces accidents mais fourni également une estimation objective de l'incertitude associée (comme les barres d'erreur associées).
Estimation du terme source de Tchernobyl en césium-137 par modélisation inverse, sa comparaison au terme source des services de l’ONU (INSCEAR), et barre d’erreur associée à cette incertitude.

Distribution de probabilité de la quantité totale de césium-137 relâchée lors de l’accident de Tchernobyl (Liu et al., 2017).