Use Case 2: Personnalisation de données environnementales

Coordination : Centre National de Recherches Météorologiques de Météo-France et du CNRS (CNRM)

Contact : Christophe Baehr

Partenaires académiques pluridisciplinaires :

Nature des données :

  • données tabulaires
  • mesures de capteurs
  • données numériques
  • données sur l'environnement (météorologiques)

Verrou scientifique :

  • personnalisation de l'accès aux jeux de données pour les rendre accessibles à des utilisateurs d'un autre domaine

Du cas d'étude au dépôt d'un projet

Ce cas d'étude de DataNoos s'intéresse au croisement des données en sciences de l'environnement, en se focalisant plus précisément sur la difficulté de trouver les bonnes données produites par différentes disciplines pour répondre à un besoin précis et à des usages particuliers. Ainsi, il contribue à définir les conditions nécessaires pour que des jeux de données soient véritablement conformes aux principes FAIR (Faciles à trouver, Accessibles, Interopérables et Réutilisables), y compris pour des personnes d'autres disciplines que celle des données.

Cas d'étude initial : Génération de bulletins météo ciblés

L'objectif initial de cette étude était la personnalisation de bulletins météorologiques afin que les bulletins soient adaptés aux communautés d'utilisateurs à qui ils s'adressent.

Partant des données fournies par le centre de météorologie à partir des mesures dans les stations météo, d'images etc, et présentées sous forme de cartes, le prévisionniste doit prendre en compte les besoins de chaque communauté d'utilisateurs pour produire des bulletins météo à destination de ces communautés.

L'étude visait à faciliter et à assister ce processus. Nous prévoyions d'automatiser ou de faciliter la production, à partir de données météo, de données (verbales) susceptibles d’être spontanément comprises par une communauté destinataire en particulier, en fonction de ses attentes. La méthode choisie était de définir des modèles d'apprentissage calculant des corrélations entre des données déjà produites manuellement : les entrées du processus (données météorologiques fournies aux prévisionnistes) et les sorties (bulletins météo ciblés en fonction de communautés (marins, "protection civile", agriculteurs ...).

Semantics4FAIR : modélisation sémantique des métadonnées en réponse aux critères FAIR

Après un premier contact avec des chercheurs en biologie étudiant les pollens, et suite à la sortie de l'Appel à Projet Flash 2019 de l'ANR soutenant la Science Ouverte, nous avons revu l'objectif pour répondre au besoin d'un chercheur non météorologue qui veut retrouver facilement des données météorologiques. Cela revient à améliorer l'adéquation de ces jeux de données aux critères FAIR. Le projet déposé, Semantics4FAIR, a été retenu par l'ANR et a démarré en Janvier 2020.

Pour faciliter l'accès aux données par des non-spécialistes en météorologie, nous avons proposé une réponse interdisciplinaire combinant des informaticiens, des chercheurs en sciences humaines (ergonomie), des chercheurs producteurs de données (le CNRM) et des utilisateurs de ces données (CNRM et OMP). Nous avons retenu l'approche des ontologies et des vocabulaires formels définissant de manière unique les concepts, propriétés et entités nécessaires pour définir des métadonnées riches et compréhensibles. La représentation sémantique permet de raisonner sur ces données au moment de les rechercher, et facilite leur alignement avec d'autres données ouvertes.

Le projet ANR Flash Semantics4FAIR (2020 - 2022)

Adoptant une démarche ergonomique d'analyse du travail, le projet cherche d'abord à comprendre pourquoi des chercheurs en biologie ne retrouvent pas les jeux de données ouverts de Météo France qui leur conviennent. Il vise à outiller le goulot d'étranglement qui existe entre utilisateurs et producteurs de données, comme le matérialise la figure ci-dessous.

Utilisateurs-producteurs de données
Le goulot d'étranglement entre producteurs de données et utilisateurs

 

La phase suivante a consisté à construire des ontologies accessibles aux utilisateurs pour proposer une meilleure description des jeux de données par des métadonnées sémantiques. La formalisation des métadonnées permet d'abord de définir des descriptions homogènes pour tous les jeux de données d'un référentiel en définissant des formulaires (templates). Elle facilite aussi la définition de contraintes et de contrôles lors de la saisie de ces données. Au moment de rechercher des jeux de données, elle permet également de proposer des valeurs de paramètres basées sur les jeux de données déjà décrits, et de filtrer les valeurs proposées au fur et à mesure du choix de certains paramètres. Enfin, les définitions et relations de l'ontologie sont utilisées pour guider la mise au point des formulaires de description et les recherches par des utilisateurs non spécialistes.

Dans un troisième temps, deux modules d'un prototype de référentiel de jeux de données ouvertes en météorologie exploitant cette ontologie ont été implémentés. Un premier module permet de définir des formulaires de description de jeux de données puis de décrire des jeux de données à l'aide de ce formulaire. L'ensemble de ces jeux de données constitue un référentiel. Un deuxième module est dédié à la recherche de jeux de données au sein de ce référentiel.

Découvrez le site du projet, ses partenaires et ses résultats ici.