挑選可信賴的資料儲存庫

什麼是資料儲存庫?

資料儲存庫 (data repository) 是資料的基礎建設,亦有人稱作「資料圖書館」(data library) 或「資料典藏庫」(data archive)。資料儲存庫是用以收藏、管理、保存、分享各種資料集的數位空間。通常是由特定的研究機構、組織或企業進行維運。

為何使用資料儲存庫?

在資料儲存庫以外,有一些其他方式,也能保存並與他人分享你的研究資料:如架設計畫網站,或將資料放在可公開的雲端硬碟上。但這些方式都有明顯的缺點。

例如因計畫架設的網站,在計畫進行時,或許能起到不錯的資料分享作用;但在計畫結束後,時常會因欠缺資金與人手,而面臨系統難以維護、儲存空間到期、資料格式過時、或無法控制資料使用情形等問題;將資料放在雲端硬碟上,則可能只有知道連結的人才能找到,從而不利於資料長期的分享。

一個可信賴的資料儲存庫,不僅能解決前述問題,還能透過使用語彙標準,讓資料獲得更有效的運用。

如何挑選資料儲存庫?

根據 re3data 所維護的資料儲存庫名錄,目前全世界至少有超過 2,700 個資料儲存庫。如何挑選合適的資料儲存庫,是所有研究者共同面臨的挑戰。

一般而言,挑選資料儲存庫時,有幾個因素可優先考量:

  • 研究(資助)機構、期刊論文的要求:有些研究(資助)機構、學術期刊會要求資料應存放在特定的資料儲存庫,研究者應優先確認所挑選的資料儲存庫是否符合那些要求。例如 Nature 在其資料儲存庫指引中,就列出數點要件,研究者須將資料上傳至符合要件的資料儲存庫。
     
  • 學科領域的使用習慣與需求:有些資料儲存庫是為了特定學科的研究需求所打造,並已被該學科的多數研究者接受,研究者可優先考量這些資料儲存庫。例如專注於蒐集生物多樣性資料的 GBIF 平台,採用 Darwin Core 作為資料欄位的標準,使全球的生物研究者的資料能被彼此理解、使用,並已被廣泛使用。
     
  • 是否通過認證:目前存在一些國際認證機制,用以確認某資料儲存庫的運作是否值得信任,研究者亦應優先考量已通過相關認證的資料儲存庫。例如 CoreTrustSealISO 16363,即為常見的資料儲存庫認證機制。CoreTrustSeal 亦有列出通過其認證的資料儲存庫清單。

在上述因素外,研究者則可參考 Science Europe 所提出的選用準則。下方為 Science Europe 在 2021 年的文件中,就可信賴的資料儲存庫所提出的選用指引。其中包含四個應考量的面向(持續及唯一的識別碼、後設資料、資料取用及使用授權、資料保存)及相關說明。我們推薦你參考此指引,挑選合適的資料儲存庫。

值得一提的是,通用型資料儲存庫 (generalist repositories) 近年來也漸受研究者青睞,例如歐盟的 Zenodo、台灣的研究資料寄存所 (depositar)。相較特定學科領域的資料儲存庫,通用型資料儲存庫的資料與使用者雖更為異質,但正如 UC Berkeley 研究資料管理頁面所說,研究者將其資料存放在通用型資料儲存庫,也更容易獲得跨學科的應用或合作機會。

參考資源