GBIF 資料驗證工具

藉由使用 GBIF 資料驗證工具,發佈者可以檢查其資料集是否存在潛在問題,並在實際發佈資料之前預覽 GBIF 解釋版本

Data Validator

什麼是 GBIF 資料驗證工具

GBIF 資料驗證為一項服務,提供所有 GBIF 相關資料集持有者關於資料集語法正確性、資料內容有效性報告。 透過將資料集上傳至驗證系統,你可以完成與 GBIF 發佈相關的驗證和解釋程序並快速找到資料集裡的潛在問題 - 無需發佈資料。

如何使用這項服務?

首先將資料集文件上傳到驗證系統,方法是 1) 點擊 選擇檔案在本機選擇要上傳的檔案,或者 2) 將檔案從本機資料夾拖曳至 * 放到此處*。 你也可以輸入藉由網際網路存取的資料集檔案的URL。 對於龐大的資料集,這項服務提供很大的幫助。 按下上傳按鍵,驗證系統就會開始處理你的資料集。 你將直接進入顯示驗證狀態的頁面。

依據你的資料集大小,可能需要一些處理的時間。 你不必一直保持瀏覽器開啟狀態,因為每次啟動新的驗證過程時都會提供唯一的作業識別碼。 如果你的資料集處理時間過長,只需保存識別碼(把 URL 加入網頁書籤) 稍後返回查看報告即可。 報告會在系統保留一個月,你可以在這段期間內隨時取用。

可接受哪些檔案類型?

  • ZIP 壓縮的達爾文核心檔案 (DwC-A) (包含核心 出現資料分類群事件)。
  • 集成處理工具包 (IPT) Excel 模板,包含清單出現資料採樣事件資料
  • 在第一行包含達爾文核心專有名詞的簡單 CSV 檔案。

驗證報告包含哪些資訊?

報告處理程序完成後,你可以看到報告內容包含以下資訊:

  • 資料集類型的摘要以及是否可以透過 GBIF 索引的簡單指標。
  • 對資料集進行 GBIF 解釋過程中發現的問題摘要
  • 對於中介資料、資料集集核心和擴充資料 (如果有) 發現問題的詳細分析
  • 可成功解釋的紀錄數量
  • 名詞在資料集內被使用的頻度。

你還可以將中介數據視為資料集頁面的草稿,就像資料集發佈並註冊到 GBIF 時顯示的那樣。

我已經取得驗證報告,下一步?

如果驗證工具發現你的資料集無法通過 GBIF 建立索引,你應該先解決驗證報告提出的問題,然後再考慮將其發佈到 GBIF。 另一方面,如果你獲得批准並且你資料集可以透過 GBIF 進行索引,你仍應仔細檢查可能導致,例如轉換錯誤等可能影響資料品質的任何問題。 若你有發現或更正錯誤,小至拼字錯誤,大至系統性問題,請每次重新上傳你的資料集。

技術細節

如同所有的 GBIF 工具和軟體,這項資料驗證服務也屬於一項開源的計劃。 更多資訊如:原始碼和文件,你可以在GitHub Repository 取得。