Exigences de qualité des données : Checklists

En suivant ces exigences et recommandations en matière de qualité des données, les éditeurs de données peuvent améliorer la qualité, l'exhaustivité et la valeur de leurs jeux de données taxonomiques.

Phonognatha-graeffei-iNat-Lek-Khauv
Leaf-curling spider (Phonognatha graeffei), Kingston, Victoria, Australia. Photo 2017 Lev Khauv via iNaturalist research-grade observations, licensed under CC BY-NC 4.0.

Les listes d'espèces fournissent un catalogue, un résumé rapide ou un inventaire de base pour un ensemble de noms d'organismes ou de taxons. Même si elles peuvent inclure des détails supplémentaires, comme les noms communs des espèces ou les citations des spécimens, ces listes d'espèces classent généralement l’information selon la taxonomie, la géographie ou une thématique, ou en combinant les trois.

En suivant ces exigences et recommandations en matière de qualité des données, les éditeurs de données peuvent améliorer la qualité, l'exhaustivité et la valeur de leurs listes d'espèces.

Enregistrements Darwin Core

Terme Statut
taxonID Obligatoire
scientificName Obligatoire
taxonRank Obligatoire
kingdom Fortement recommandé
parentNameUsageID Fortement recommandé
acceptedNameUsageID Fortement recommandé
vernacularName Partager si disponible

Métadonnées du jeu de données (EML)

Terme Statut
title Obligatoire
description Obligatoire
publisher Obligatoire
type Obligatoire
license Obligatoire
contact Obligatoire
creator Obligatoire
metadataProvider Obligatoire
citation Fortement recommandé

Remarque : Si le jeu de données est financé par un programme géré par le GBIF (par ex. BID, BIFA, CESP), deux champs supplémentaires sont obligatoires :

projectID Obligatoire
projectTitle Obligatoire

Statut

Informations requises

Les éléments énumérés ci-dessous constituent les conditions formelles minimales pour la publication d'une checklist. GBIF.org n'acceptera pas un jeu de données sans ces termes et n'indexera pas les enregistrements. Bien que ces éléments soient obligatoires pour la publication du jeu de données, ils ne sont que le point de départ. L'utilité des données publiées reste fortement limitée à moins que des informations supplémentaires ne soient fournies.

Fortement recommandé

En plus des éléments de données obligatoires, nous recommandons fortement de remplir plusieurs champs supplémentaires qui aident à améliorer l'utilité du jeu de données parce que :

  • certaines informations prennent en charge l'intégration dans une ressource de données globale et empêchent l'ambiguïté, p. ex. dans les noms scientifiques correspondants qui pourraient s'appliquer à plus d'un organisme (homonymes) à la place correcte dans la taxonomie de référence
  • des données géo-localisation plus précises (coordonnées) augmentent significativement l'utilité des données pour un large éventail de cas d'utilisation
  • des qualifications supplémentaires pour certains éléments des données, par ex. des coordonnées, soutiennent l'interprétation de ces éléments et aident les utilisateurs à mieux estimer leur utilité pour un cas d'utilisation de données particulier
  • certaines redondances de données soutiennent le contrôle de la qualité et la détection des erreurs (par exemple, tester les codes de pays par rapport aux coordonnées là où les deux sont fournis)
  • enfin et surtout, plus le spectre des informations des jeux de données disponibles est riche, plus les domaines d'utilisation potentiels deviennent disponibles, ce qui signifie que le jeu de données deviendra plus largement accessible et utilisé et cité plus souvent

Partager si disponible

Si des données supplémentaires sont disponibles, pensez à les partager afin d'augmenter l'utilité de vos données publiées.

Termes

taxonID
Élément Darwin Core du jeu de données, OBLIGATOIRE pour les listes de données taxonomiques
Un identifiant unique pour le taxon, permettant à un même taxon d'être reconnu à travers différentes versions de jeux de données ainsi qu'à travers les téléchargements et l'utilisation des données (voir Darwin Core Terms: A quick reference guide).
Idéalement, le taxonID est un identifiant global unique persistant. En tant qu'exigence minimale, elle doit être unique dans le jeu de données publié. Il permet de reconnaître le même ensemble d'informations sur le taxon au fil du temps lorsque l'indexation du jeu de données est actualisée ; il relie des données supplémentaires telles que des images ou des enregistrements d'occurrence ; et il permet de citer des enregistrements e.g. dans des rapports d’utilisation ou des publications. Cela signifie que le taxonID doit rester fidèlement lié avec les informations du taxon à la source, et référer systématiquement au même ensemble d'informations de taxon dans les jeux de données publiés et toutes les sources de données sous-jacentes.

scientificName
Élément Darwin Core du jeu de données, OBLIGATOIRE pour les jeux de données taxonomiques (checklist)
Le nom scientifique complet, incluant les autorités et année du nom lorsque cela est applicable. Dans le contexte d'un jeu de données taxonomique (checklist), le nom scientifique est l'élément central de la liste taxonomique ou de la hiérarchie que le jeu de données a pour objectif de compiler et publier (voir Darwin Core Terms: A quick reference guide).
Tout dépendant de l'objectif du jeu de données taxonomique, les noms scientifiques peuvent avoir différents niveaux hiérarchiques, même s'ils sont principalement du niveau de l'espèce ou d'un niveau inférieur pour, e.g., les listes floristiques et faunistiques régionales, la Liste Rouge, ou des inventaires thématiques tels que ceux d'organismes marins ou des révisions taxonomiques de groupes d'espèces. Si le jeu de données taxonomique (checklist) est destiné à publier une hiérarchie (structure de type arborescence), ajoutez des entrées séparées pour les rangs taxonomiques supérieurs appropriés, p. ex. royaume, classe et famille, et reliez dans une structure hiérarchique en utilisant le parentNameUsageID (voir ci-dessous) pour supporter l'interprétation sans équivoque des entrées du jeu de données taxonomique.
Les noms scientifiques valides sont des noms latins suivant les règles de syntaxe de leur groupe taxonomique respectif (par exemple la nomenclature botanique). Les noms de travail ("Mallomonas sp.4"), les noms communs ("mouche de fruits") ou les noms contenant des qualifications d'identification ("Anemone cf. nemorosa") ne sont pas autorisés. Si des noms communs sont utilisés, ils devraient être fournis en plus des noms scientifiques, en utilisant l'ensemble de champs VernacularName (voir ci-dessous).

taxonRank
Élément Darwin Core du jeu de données, OBLIGATOIRE pour les jeux de données taxonomiques (checklist)
Le rang taxonomique du nom scientifique fourni (voir Darwin Core Terms: A quick reference guide).
Le rang taxonomique soutient l'interprétation du nom scientifique durant l'indexation, ainsi que la corrélation entre l'enregistrement taxonomique et la taxonomie centrale, surtout dans le cas de noms aux niveaux du genre ou supérieurs (monômes). Alors que le format des noms de taxons supérieurs dans certains groupes contient des indicateurs de leur rang, ce n'est pas cohérent entre les groupes ou même au sein de ceux-ci, et cela ne peut être utilisé de manière fiable pour l'interprétation. Pour placer les noms correctement, spécifier explicitement le rang de taxon, en plus des informations sur la taxonomie supérieure, est un critère important. À des fins pratiques, les rangs des rangs doivent être des rangs Linnéens(majeurs) : royaume, phylum, classe, ordre, famille, genre, espèces. Les termes latins ou anglais sont tous les deux acceptés.

kingdom
Élément Darwin Core du jeu de donnée, FORTEMENT RECOMMENDÉ pour les jeux de données taxonomiques (checklist)
Le nom spécifique complet spécifiant le royaume sous lequel le nom scientifique est classé (voir Darwin Core Terms: A quick reference guide) ainsi que toute autre taxonomie supérieure, si possible.
Avec les noms scientifiques, il existe de nombreux cas pour lesquels la corrélation d'un nom donné avec la taxonomie centrale est incertaine ou ambiguë. C'est le cas, par exemple, avec les homonymes (les noms identiques existant pour différents organismes, appartenant généralement à des groupes distincts), les noms nouvellement décrits qui ne font pas encore partie de l'arbre taxonomique actuel, ou des variantes d'orthographe (typos, césure d'union, etc.). Pour soutenir la correspondance exacte d'un nom scientifique avec le noyau taxonomique, des noms supplémentaires de rang supérieur aident à l'interprétation et à la prévention des erreurs. Pour les jeux de données pour lesquels la représentation hiérarchique dans les données publiées n'est pas importante, des noms de niveau plus élevés peuvent être fournis dans l'enregistrement lui-même en ajoutant les champs DarwinCore pertinents, de la même mamière que dans les jeux de données d'occurrences.

Les noms devraient être des noms scientifiques (latin) pour les rangs Linnéens majeurs, comme "Animalia" (royaume) ou "Rosaceae" (famille). Non acceptés : noms communs ("animaux"), abréviations ("Rosac."), niveaux de rang intermédiaire ("Tetrapoda" (superclasse)), groupes polyphylétiques ou non taxonomiques ("algue", "herbivora").

parentNameUsageID
Élément Darwin Core du jeu de données, FORTEMENT RECOMMANDÉ pour les jeux de données taxonomiques (checklist)
Le taxonID du premier niveau taxonomique supérieur (parent) disponible dans le jeu de données taxonomique (checklist), si des noms de taxa supérieurs sont fournis en tant qu'entrées séparées dans la liste. Voir https://dwc.tdwg.org/list/#dwc_parentNameUsageID.
Ceci supporte la représentation du jeu de données en tant que hiérarchie, par exemple pour la publication d'une taxonomie.

acceptedNameUsageID
Élément du jeu de données Darwin Core, FORTEMENT RECOMMANDÉ pour les jeux de données taxonomiques (checklist)
Pour un enregistrement d'un synonyme, le taxonID du nom accepté au sein de la liste taxonomique, si les synonymes et les noms acceptés sont tous deux fournis. Voir http://rs.tdwg.org/dwc/terms/acceptedNameUsageID
Ceci supporte la représentation de la synonymie dans un jeu de données taxonomique.

vernacularName
Élément du jeu de données Darwin Core, À PARTAGER SI DISPONIBLE pour les jeux de données taxonomiques (checklist)
Voir http://rs.gbif.org/extension/gbif/1.0/vernacularname.xml. Si le nom vernaculaire est fourni, il est important d'ajouter au moins la langue du nom, en utilisant les codes de langues ISO 639-1.

title
Métadonnées EML du jeu de données, OBLIGATOIRE pour les jeux de données taxonomiques (checklist)
Le titre sous lequel le jeu de données sera publié sur gbif.org.
Recommandation : un titre bref, mais descriptif, caractérisant le jeu de données dans un contexte international et qui le distingue d'autres jeux de données similaires provenant d'autres institutions. P. ex. « Four new generic and 14 new specific synonymies in Pholcidae, and transfer of Pholcoides Roewer to Filistatidae (Araneae) ». Non recommandé : "Araneae (partie 1) partie.". Le titre fera partie, entre autre, de la citation du jeu de données sur l'utilisation des données.

description
Métadonnées EML du jeu de données, OBLIGATOIRE pour les jeux de données taxonomiques (checklist)
Un texte en langue anglaise décrivant le jeu de données.
Cela peut inclure une version plus longue du titre, une description géographique, la portée temporelle ou taxonomique de la liste taxonomique, la méthodologie et l'objectif de la compilation des données sous-jacentes (p.ex. la Liste Rouge, les espèces envahissantes, les taxons d'eau douce, les flores régionales), les références littéraires pertinentes et toute autre information que vous jugez pertinente pour caractériser le jeu de données. Une deuxième version de la description dans une autre langue que l'anglais peut être ajoutée en dessous.

publisher
Métadonnées EML du jeu de données, OBLIGATOIRE pour les jeux de données taxonomiques (checklist)
Le titre de l'institution ou de l'organisation qui sera listée comme fournisseur de données sur gbif.org.
L'organisation fournissant les données est l'institution qui détient ou est propriétaire du jeu de données et qui est responsable de son contenu et de sa maintenance. Le titre donné doit être le titre officiel de l'organisation enregistré auprès des autorités compétentes, listés sur les sites Web et, le cas échéant, tel qu'indiqué dans le contrat de projet.

type
Métadonnées EML du jeu de données, OBLIGATOIRE pour les jeux de données taxonomiques (checklist)
Le type de jeu de données, ici : "checklist".
Le type d'enregistrement décrit le focus principal de tous les enregistrements contenus dans le jeu de données (enregistrements du noyau). Pour une checklist, le type d'enregistrement sera toujours "checklist". Il peut également y avoir des occurrences liées à des enregistrements de checklist (par exemple, des spécimens de référence pour un traitement taxonomique, des enregistrement d'herbier documentant une flore régionale). La structure et les exigences de ces informations liées suivent les directives données pour la publication de données d'occurrence.

license
Métadonnées EML de jeu de données, OBLIGATOIRE pour les checklists
Une déclaration lisible par machine des droits attachés au jeu de données publié. Utilisez soit CC0 ou CC BY.
Remarque : Tous les jeux de données financés par les programmes BID et BIFA doivent être publiés soit sous la dispense de droits CC0 de Creative Commons, soit sous une licence d'attribution CC BY. Les jeux de données sans déclaration de licence valide ne seront pas acceptés pour publication. Les licences lisibles par des machines permettent des filtres de données automatisés donnant aux utilisateurs des indications claires sur l'utilisation autorisée des enregistrements, favorisant ainsi l'utilisation et la citation des données.

contact
Dataset metadata EML, OBLIGATOIRE pour les checklists
Données de contact(s) (minimum : nom et courriel) pour au moins un contact administratif pour le jeu de données.
Les données de contact seront visibles publiquement sur gbif.org. Ces informations sont nécessaires pour assurer la possibilité de communication à propos du jeu de données. Le contact administratif est la personne/rôle à consulter à propos du contenu, de la qualité et des questions de droits concernant le jeu de données, tant par les utilisateurs que par les services centraux (GBIFS). Si des données de contact personnelles ne peuvent être fournies, il est possible de fournir un contact fonctionnel par le biais d'un nom de rôle (par exemple "conservateur") et par courriel (collections@myhouse.com). Il est toutefois nécessaire que les responsabilités en matière de gestion des communications entrantes soient clairement définies et suivies en interne.

creator
Dataset metadata EML, OBLIGATOIRE pour les checklists
Données de contact (minimum : nom et courriel) pour le(s) créateur(s) du jeu de données (voir creator).

metadataProvider
Dataset metadata EML, OBLIGATOIRE pour les checklists
Données de contact (minimum : nom et courriel) pour les auteur(s) des métadonnées du jeu de données (voir metadataProvider).

citation
Dataset metadata EML, FORTEMENT RECOMMANDÉ pour les checklists
un texte précisant comment votre jeu de données doit être cité dans les publications utilisant vos données.
Pour vous assurer que votre jeu de données est cité comme vous le souhaitez, vous pouvez explicitement spécifier la citations demandée. Ce texte sera affiché sur la page du jeu de données, et il sera fourni aux utilisateurs de données avec tous les téléchargements contenant toute contribution provenant de votre jeu de données. Si aucun texte n'est spécifié, GBIF fournira automatiquement une citation dans un format standard incluant le nom du jeu de données et le nom de l'institution de publication combinés avec la date du téléchargement et une référence à gbif.org.

projectID
Dataset metadata EML, OBLIGATOIRE pour certaines checklists
Un identifiant unique pour le projet dont un jeu de données est dérivé
Le type d'enregistrement est un GUID ou un autre identifiant presque unique au monde.
Ce champ est OBLIGATOIRE pour un jeu de données financé par des programmes gérés par GBIF. Dans ce cas, le projetID est l'ID du projet financé tel que listé dans le document du contrat, par exemple "BID-AF2016-0001-REG".

projectTitle
Dataset metadata EML, OBLIGATOIRE pour certaines checklits
Le titre du projet financé tel que listé dans le document de contrat, mais ne contenant pas le projetID et d'autres informations administratives, comme les titres du projet listés ici.
Ce champ est OBLIGATOIRE pour un jeu de données financé par des programmes gérés par le GBIF.