Validateur de données GBIF

En utilisant le validateur de données GBIF, les fournisseurs de données peuvent vérifier leurs jeux de données afin de trouver des problèmes potentiels et prévisualiser la version interprétée par GBIF avant de réellement publier les données

Data Validator

Qu'est-ce que le validateur de données GBIF ?

Le validateur de données GBIF est un service qui permet à n’importe qui ayant un jeu de données pertinent pour GBIF de recevoir un rapport sur la justesse syntaxique et la validité du contenu figurant dans le jeu de données. En soumettant un jeu de données au validateur, vous pouvez passer par les procédures de validation et d'interprétation généralement associées à la publication sur GBIF et déterminer rapidement les éventuels problèmes dans les données, sans avoir à les publier.

Comment ça marche ?

Vous commencez par télécharger le fichier du jeu de données dans le validateur, soit 1) en cliquant sur SELECTIONNER UN FICHIER et en le sélectionnant sur votre ordinateur ou 2) en faisant glisser le fichier depuis un dossier local et en le déposant sur l'icône DÉPOSER ICI. Vous pouvez également entrer l'URL d'un fichier de jeu de données accessible à partir d'internet. Ceci est particulièrement utile pour les jeux de données de plus grande taille. Une fois que vous appuyez sur le bouton SOUMETTRE, le validateur commence à traiter votre fichier de jeu de données. Vous serez dirigé directement sur une page montrant le statut de la validation.

Selon la taille de votre jeu de données, le traitement peut prendre un certain temps. Vous n'avez pas besoin de garder la fenêtre du navigateur ouverte, car un ID de tâche unique est fourni chaque fois qu'un nouveau processus de validation est démarré. Si votre jeu de données prend trop de temps à être traité, il vous suffit de sauvegarder l'ID (signet) et de l'utiliser pour revenir plus tard pour voir le rapport. Nous garderons le rapport pendant un mois, au cours duquel vous pourrez revenir quand vous le souhaitez.

Quels types de fichiers sont acceptés ?

  • Les archives Darwin Core compressées en ZIP (DwC-A) (contenant les cœurs Occurrence, Taxon, ou Event).
  • Modèles Excel pour l'outil de publication intégré (IPT), contenant des données de types Liste d'espèces, Occurrence ou Événement d'échantillonnage
  • Des fichiers CSV simples contenant les termes Darwin Core dans la première ligne

Quelles informations vais-je obtenir à partir du rapport de validation ?

Une fois le traitement effectué, vous pourrez voir le rapport de validation contenant les informations suivantes :

  • un résumé du type de jeu de données et un indicateur simple pour savoir s'il peut être indexé par GBIF ou non
  • un résumé des problèmes rencontrés lors de l'interprétation du jeu de données par GBIF
  • une description détaillée des problèmes trouvés respectivement dans les métadonnées, le cœur du jeu de données et dans les extensions (s'il y en a)
  • le nombre d'enregistrements interprétés avec succès
  • la fréquence des termes utilisés dans le jeu de données

Vous pourrez également consulter les métadonnées en tant que version préliminaire de la page du jeu de données telle qu'elle apparaîtra lorsque le jeu de données sera publié et enregistré auprès du GBIF.

J'ai le rapport de validation, et maintenant ?

Si le validateur constate que votre jeu de données ne peut pas être indexé par GBIF, vous devriez résoudre les problèmes soulevés par le rapport de validation avant d'envisager de le publier sur GBIF. D'un autre côté, si vous obtenez le feu vert et que votre jeu de données est indexable par GBIF, vous devriez tout de même examiner attentivement toutes les questions qui pourraient être le résultat, par exemple, d'erreurs de conversion ou autres et qui pourraient affecter la qualité des données. Si vous trouvez et corrigez une erreur, qu'il s'agisse d'une simple faute de frappe ou de gros problèmes systématiques, n'hésitez pas à soumettre à nouveau votre jeu de données autant de fois que vous le souhaitez.

Détails techniques

Comme tous les outils et logiciels GBIF, le validateur de données est un projet open source. Pour plus d'informations, le code source et la documentation sont disponibles dans un répertoire GitHub.