GBIF数据验证器

通过使用GBIF数据验证器,发布者可以检查他们的数据集是否存在潜在问题,并在实际发布数据前预览GBIF解释版本

Data Validator

什么是GBIF数据验证器?

GBIF数据验证器是一种服务,其允许任何拥有GBIF相关数据集的人接收关于该数据集中所含内容的语法正确性和有效性的报告。 通过将一个数据集提交给验证器,您可以完成通常与在GBIF发布相关的验证和解释程序,并快速确定数据中的潜在问题,而无需发布数据。

它如何运作?

您首先将数据集文件上传到验证器,通过或者1) 点击SELECT FILE并在本地计算机上选择其,或者2) 从本地文件夹拖动该文件并将其放到Drop here图标上。 您也可以输入可从互联网访问的数据集文件的URL。 这对于较大的数据集尤其有用。 点击Submit按钮后,验证器开始处理您的数据集文件。 您会被直接带到一个显示验证状态的页面。

根据您的数据集的大小,处理可能需要一段时间。 您无需保持浏览器窗口打开,因为每次启动新的验证程序都会发出一个唯一的作业ID。 如果您的数据集处理时间过长,只需保存ID (将URL添加为书签) 并在稍后返回时用其来查看报告。 我们会将报告保存一个月,在此期间,您可以随时返回查看。

接受哪些文件类型?

  • ZIP-压缩的达尔文核心档案 (DwC-A) (包含核心发生记录分类群,或事件) 。
  • 集成发布工具包 (IPT) Excel模板包含检查表发生记录采样事件数据
  • 第一行包含达尔文核心术语的简单的CSV文件

我会从验证报告中获得什么信息?

处理完成后,您将能够看到包含以下信息的验证报告:

  • 一份数据集类型的摘要,以及是否可以被GBIF索引的一个简单指标
  • 一份在GBIF数据集解释过程中发现的问题的摘要
  • 分别对元数据、数据集核心和扩展 (如果有的话) 中发现的问题进行的详细分解
  • 成功解释的记录数量
  • 数据集中使用的术语的频率

您还可以将元数据作为数据集页面的草稿版本来查看,就像数据集在GBIF发布和注册时显示的那样。

我收到了验证报告 - 现在怎么办?

如果验证器发现您的数据集不能被GBIF索引,您应在考虑将其发布到GBIF之前解决验证报告提出的问题。 另一方面,如果您获得了绿灯并且您的数据集可以被GBIF索引,您仍应仔细检查任何可能会影响数据质量的问题,如转换错误等。 如果您发现并纠正了任何错误 - 从一个单一的打字错误到大的系统性问题 - 可以不限次数重新提交您的数据集。

技术细节

与所有GBIF工具和软件一样,数据验证器是一个开源项目。 欲了解更多信息,可在GitHub存储库中获取源代码和文档。