Portails de données et entrepôts de données

Nous devons distinguer les portails de données (data portals) et les entrepôts de données (data repositories).

Un jeu de données est décrit par des métadonnées et peut être représenté selon plusieurs distributions.

Les métadonnées servent à cataloguer les jeux de données sur un portail de données. Un portail de données est un référentiel, véritable moteur de recherche spécialisé. Les jeux de données sont regroupés en collection ou encore dans des catalogues souvent thématiques et institutionnels. Ainsi, chaque organisme structure ses données dans des catalogues et sous-catalogues au besoin. Ces catalogues permettent de savoir où faire des recherches de données.

L'INRAE par exemple organise ses données dans plusieurs catalogues comme:

- le catalogue des données omics.

- le catalogue des données expérimentales.

 

Les entrepôts de données servent à stocker les distributions des jeux de données souvent sous forme  de fichier(s). Une distribution est une représentation d'un jeu de données. Un jeu de données peut avoir plusieurs représentations selon différents formats pour différents usages (présentation dans une publication, utilisation dans une simulation, ...). Celà peut être une série temporelle sous forme d'un tableau de mesure ou un graphe sous forme d'une image. Dans certain cas, la distribution peut être aussi le résultat d'une requête sur l'entrepôt qui va alors calculer la distribution à la volée.

Le standard internet, le vocabulaire du web des données pour cataloguer les jeux de données est DCAT. En 2023, la version 2 est utilisée pour les données européennes avec son profil DCAT AP pour les portails européens de données. Noius pouvons par exemple noter le portail européen officiel des données européenne Data europa. La version 3 de DCAT est en préparation et offre une modélisation qui améliore la généricité et la diversité de cas possibles de catalogage.