研究計畫提案該如何準備資料管理方案? 認識中研院「研究資料寄存所」

文/王家薰(中央研究院 資訊科學研究所 專案經理)、莊庭瑞(中央研究院 資訊科學研究所 副研究員)

本文亦刊登於 2023-02-16 科技報導

無論是個人獨立研究、小型研究計畫、大型研究團隊、或是跨領域跨機構的長期研究合作,都將蒐集生產樣態眾多、數量龐大的研究資料。近年來,研究資料管理(research data management, RDM)以及資料的審慎保存與日後取用等問題,逐漸成為研究人員必須面對的日常。「資料管理方案」(Data Management Plan, DMP)該從何處著手?又該如何選用合適的研究資料儲存庫呢?去(2022)年12月下旬,中央研究院(以下簡稱中研院)舉行的「什麼是研究資料儲存庫?什麼是資料管理方案?為何您需要關心?」課程活動,對這些議題做了初步探討,接下來我們將介紹此次的活動內容,進一步討論DMP撰寫應注意的事項,並且認識中研院支持發展的「研究資料寄存所」(depositar)服務。

研究計畫新趨勢,為科研人員做好準備

本次課程活動內容由中研院資訊服務處國際科學資料委員會中華民國委員會(CODATA Taiwan; CODATA 為國際科學理事會下的常設機構,亦即 The Committee on Data of the International Science Council)以及研究資料寄存所計畫團隊共同籌辦;講師皆來自中研院的研究資料寄存所計畫成員。此次基礎課程主要授課對象以中研院人員為主,同時接受院外人士報名。課程內容包括系統操作,顧及流程設計及人員互動,故採實體課程方式舉行。報名相當踴躍,110個名額悉數額滿,出席率約七成,中研院院內、院外參與人數比約二比一。

各學科領域的研究者在提出研究計畫時,逐漸受到研究資助機構的要求,需遵循已發布的資料政策,詳細說明在計畫執行期間,蒐集、紀錄、管理、保存研究資料的方法,並規劃研究資料的釋出與再次使用。舉例來說,美國白宮「科學與技術政策辦公室」(Office of Science and Technology Policy, OSTP)去年的新政策,要求聯邦政府資助的研究論文刊登時需即刻開放取用(open access, OA)。而臺灣的國家科學及技術委員會(以下簡稱國科會)永續學門自2021年起開始試辦 DMP,鼓勵研究團隊於提交計劃書時,同時提出DMP。顯而易見,DMP將逐漸成為研究人員需要面對的議題。

這次的課程分為上下兩階段,第一階段從研究資料儲存庫發展趨勢開始,介紹研究資料寄存以及DMP,以實務角度分享相關經驗。課程中以研究資料寄存所為例,解說研究資料保存與釋出的作法,以及其與研究資料管理的關聯。第二階段為線上使用研究資料寄存所,主辦單位規劃了資料集實作範例,由學員進行操作。最後則有問答時間,進行討論交流。

由趨勢到實務,資料寄存與DMP介紹

課程首先由中研院資訊所莊庭瑞副研究員分享研究資料儲存庫的現況與發展趨勢,莊庭瑞引用科研組織Science Europe所發行的《國際合用的研究資料管理實用指南》(Practical Guide to the International Alignment of Research Data Management)中〈可信賴的儲存庫選用準則〉(Criteria for the selection of trustworthy repositories)進行說明。內容包括持續識別碼(Persistent Identifiers, PIDs)的使用;後設資料(metadata)的編寫目的及採用原則,如是否使用被(科學社群)廣泛接受的後設資料格式,以確保後設資料能否被自動擷取;以及在資料取用、使用授權、資料保存等的考慮重點。

接著,由研究資料寄存所王家薰專案經理及李承錱技術經理,介紹研究資料寄存所的功能。研究資料寄存所是中研院自2018年起建置並發展的通用型研究資料儲存庫(research data repository)。兩位講者從單一資料集(Dataset)開始,述說一份完整的資料集應呈現的樣貌,進而檢視落實資料原則FAIR(Findable, Accessible, Interoperable, Reusable)的研究資料儲存庫,會擁有哪些功能。並進一步說明研究資料寄存所團隊新開發的功能套件,已開放回饋至開放源碼社群,包含使用語意更精確的Wikidata關鍵字、空間資料預覽等功能,讓研究者的資料集能更容易被找到、被取用、並再次被使用。

在DMP撰寫實務場次,何明諠專案經理從資料的生命週期(data lifecycle)開始,說明DMP是一份描述在研究過程中如何關照資料的文件。DMP通常是在研究開始前撰寫,在研究中隨時修正,藉此研究者能更有效地管理資料。目前知名的科研補助單位,如美國的國家科學基金會(National Science Foundation)、貝蒙論壇(Belmont Forum)等,皆要求計畫申請人必須在提案書中檢附DMP,才能取得補助資格。何明諠也引用 Science Europe 的《國際合用的研究資料管理實用指南》,說明DMP的核心需求、撰寫指引,以及相關線上資源。

下半場的實作課程,講師帶領學員線上操作研究資料寄存所的功能。李承錱帶領學員填寫一份資料集的完整後設資料,並完成資料集的上傳,且檢視是否產生相對應的資料集預覽。課程也說明研究資料寄存所此資訊系統的資料API,可用程式介接進行資料的取用及分析。

綜合問答

在課程最後的綜合討論階段,與會者提出許多相當關鍵的問題,本文擇要挑選三題,將問答整理於下。

問:研究資料寄存所與研究誠信之間存在怎樣的主要關聯?
答:研究資料寄存所是一個研究資料儲存庫,因此這個問題可以擴及到研究資料儲存庫與研究誠信之間的關聯。現今論文發表後通常會受到挑戰,如支撐論文發現的資料在哪、所使用的分析方法為何、是否可供大眾檢視等。回應這類的挑戰,最好的方式就是透過研究資料儲存庫,提供研究資料及釋出分析資料所使用的程式碼。使用同樣的資料及程式,是否就會產出論文所呈現的結果,也就可驗證研究是否具「可再現性」(reproducibility)。資料的公開釋出還有一個好處,可讓其他研究者使用不同的分析方法去檢驗,亦即經由研究資料與分析方法的公開取得,共同查驗可能的研究漏洞。所以研究資料儲存庫與研究誠信有非常密切的關聯,資料放置於公開的研究資料儲存庫,絕對有助於提升研究誠信。

問:具體解釋FAIR原則中的「可相互操作」是什麼意思?
答:「可相互操作」代表了,所釋出的資料是別人容易處理的,而考慮到現今的處理大多是透過機器程式碼去分析,也代表資料的格式等容易以程式處理。例如,當釋出一份表單資料時,若表單欄位其一的名稱命名為「地點」,但「地點」這個語詞對不懂中文的人來說就不易了解,這時可尋找是否有用來標示「地點」的後設資料語彙或標準可用,例如使用W3C 的資料目錄語彙(data catalog cocabulary, DCAT)的spatial/geographical coverage性質來標示。也應找尋有伴隨後設資料定義的語彙。此外,欄位值的格式,是否採用通用的資料格式標準,也會影響資料的可相互操作。例如在日期欄位上,應使用2022-12-21,而非民國111年12月21日,後者除了對不懂中文的學者不友善之外,也增添資料交換使用的難度,因為需先將民國111年透過程式對應至公元2022年。通常我們會希望透過程式來處理不同來源的許多資料,資料來源若是採共同的語彙與格式,就會非常方便進行分析處理。

問:研究資料寄存所目前是與國科會永續學門合作推廣DMP,未來會擴展到其他學門嗎?
答:研究資料寄存所計畫經費來源有三部份:中研院資訊科學研究所、中研院資訊科技創新研究中心、以及國科會永續學門。研究資料寄存所自2019年獲國科會永續學門專題研究計畫補助,永續學門也希望這項計畫涉入DMP的研究與導入。目前僅知道永續學門有DMP的試辦計畫,其他學門的狀況並不清楚。但無論如何,只要對研究資料管理、資料管理方案、研究資料寄存有興趣的任何計畫團隊,都歡迎與我們聯繫。永續學門目前有幾個整合性計畫,我們也前去拜訪、彼此交流。

小結:「研究資料寄存所」相關資源

提供研究資料寄存服務、傾聽研究者的資料管理需要、彙集並分享各領域研究團隊的資料實務經驗與所遭遇的資料議題,是研究資料寄存所計畫團隊的目的。這次課程的投影片放置於以下網址,讀者可以自由下載使用:https://pid.depositar.io/ark:37281/k5p8d6q2b。本次課程更多資料如參與人員問卷調查等,可詳見本文附錄。若想了解更多研究資料管理議題,也請持續關注「研究資料管理推進室」(Research Data Management Hub, RDM Hub) 上的資源與報導:https://rdm.depositar.io/,並訂閱線上論壇。此外,亦可追蹤研究資料寄存所的Twitter帳號:https://twitter.com/_depositar/,獲取最新消息。

附錄:學員背景調查以及課程效用評估

除了現場的問答與討論,主辦單位也以線上問卷收集與會者的意見。當天實際簽到人數74人,回收有效問卷共43份,近六成的回收率。問卷共包含三部份、17個問題,無預設必填欄位。問卷第一部份為整體課程評分及學科背景調查,第二部份為研究資料寄存所服務調查,第三部份為資料管理方案的撰寫經驗及服務調查。以下僅列出其中5個問題的回覆情形,整理於下。

問題一:您的學科領域或單位?
人文與社會科學及生命科學組佔大多數,共計31人(77.5%)。院外人士但未填寫學科領域的,於以下圖表歸類到「其他」。

問題1

問題二:你在單位中主要擔任的角色是?(可多選)
參與這次課程的學員大多為研究助理,共23人(53.5%),其次為研究生及學生11人,計畫主持人四人,博士後研究人員三人,資料管理員三人。

圖2

問題三:未來若有類似的課程,你希望可以針對哪類主題?
由於本次課程僅觸及部份主題,藉由了解與會者的需求,將有助於未來的課程設計。經統計,「研究資料管理(RDM)概論」共有27人(62.8%)勾選表示需要更深入的課程,「研究資料寄存所API操作教學」有26人(60.5%)勾選,「資料管理方案(DMP)撰寫及練習」有26人(60.5%)勾選,「研究資料寄存所完整操作介紹」有24人(55.8%)勾選。

圖4

問題四:你是否曾有撰寫DMP的經驗?
佔95.3%共計41名勾選「沒有撰寫DMP的經驗」,僅二名勾選有撰寫經驗。承接此問題,有經驗撰寫DMP的原因為管理資料、撰寫計畫及工作交接。

圖7

問題五:你認為下列何者最能協助你撰寫DMP?(最多三項)
此部分前三項分別為:「有其他已公開的DMP可參考」,佔65.9%共27人;其次為「DMP撰寫培訓課程或工作坊」,61%共25人;第三則為「DMP撰寫諮詢服務」,佔56%共23人。

圖8

延伸閱讀