2023 國際資料週「資料節慶」 一窺研究資料管理發展

2023年10月23~26日於奧地利薩爾斯堡舉行的國際資料週。

文/王家薰/中央研究院資訊科學研究所 專案經理、莊庭瑞/中央研究院資訊科學研究所 副研究員

本文亦刊登於 2024-01-15 科技報導

若是想要了解科學資料政策、研究資料管理,以及相關資訊技術的發展趨勢,或是想和不同學科領域的資料專家討論各種前沿議題,那麼兩年一次的國際資料週(International Data Week, IDW)是不容錯過的盛會。為期四天的國際資料週會議由研究資料聯盟(Research Data Alliance, RDA)、國際科學資料委員會(The Committee on Data of the International Science Council, CODATA),以及世界資料系統(World Data System, WDS)共同籌辦,目的在於促進研究資料在科學、教育及各學科領域的交流與合作,並加速資料科學的發展。

CODATA成員為各國科學資料委員會與眾學科的國際學會,以及由科學資料中心組成的 WDS,都是國際科學理事會(International Science Council, ISC)下屬的獨立組織;而RDA則是以資料為核心議題的研究社群。首次國際資料週於 2016 年在美國丹佛舉行,之後兩屆則分別在波札那首都嘉柏隆里(2018)與韓國首爾(因COVID-19延至2022年),去(2023)年是第四屆,於 10 月 23∼26 日在奧地利薩爾斯堡舉行,近 900 名與會者以實體及線上模式參與,議程多達 100 多項。

今年大會的主題是「資料節慶」(The Festival of Data)。本篇報導將簡要回顧這次會議部分議程中的報告與討論,聚焦於資料政策、資料基礎設施,以及創新的應用與教學。

研究資料儲存庫在開放科學和研究資料政策中的角色

科學研究生態圈有眾多利益關係人,研究教學人員與學生為主體,此外還包括了學術單位、研究資助機構、期刊出版商和研究資料儲存庫等。在去年國際資料週以研究資料儲存庫(researh dara repository)為主題的場次中,有研究者從利益關係人的觀點探討他們各自面臨的挑戰,特別是有關資料政策(data policy)與研究資料儲存庫之間的相互影響。此外,以研究資料儲存庫作為資料共享的核心設施,也扮演著促進研究資料符合 FAIR 原則(可被找到、可被取用、可相互操作、可再次使用)的關鍵角色。最後,更有關於各國在擬定資料政策時,對於原則動機、執行方法、預期結果等面向的考量,以及各利益關係人對於研究資料儲存庫的期望等討論。而研究資助機構又採取哪些措施來落實資料政策?以下簡介會議上兩個歐洲國家的新近作法。

德國的 Helmholtz 協會由德國境內 18 個獨立研究機構所組成,設有開放科學辦公室,並長期支持及服務Helmholtz成員機構推動開放科學的研究文化。辦公室主任貝特爾曼(Roland Bertelmann)在會議上分享他們於 2022 年正式發布《Helmholtz開放科學政策》(Helmholtz Open Science Policy)的經驗。政策內容依循聯合國教科文組織(United Nations Education Scientific and Cultural Organization, UNESCO)關於開放科學的建議,並對應德國、歐盟、國際間現有的開放科學政策,要讓研究成果能被公開取用並廣泛使用,建立各式可永續的基礎設施例如資料儲存庫、網路與運算服務等。政策主要原則包括開放(研究成果發表要能開放取用)、透明(以透明方式傳播研究成果)、品質維持(於研究過程所有環節中確保品質)、互相連結(依據 FAIR 資料原則),以及永續性(維持長期、安全、可靠的研究基礎設施與服務)。Helmholtz 協會除了提供基礎設施與服務以協助研究人員之外,更將擴展開放科學所需的基礎設施,包括出版平臺與資料儲存庫,並以相應的經費支持,同時也鼓勵研究人員在本國內與國際間各層面的互動聯繫。

然而在執行層面的情況卻有些複雜。貝特爾曼表示,除了研究資料應按資料管理方案(data management plan, DMP)中指定的時間,存放於研究資料存儲庫註冊機構re3data(Registry of Research Data Repositories)所收錄的資料儲存庫之外,各研究機構也應制定自己 的資料管理政策。此外,也需要強化內部討論與定期檢核,檢視既有的資料管理流程,必要時可即時調整,機構層級的研究資料管理政策將有助於政策的落實。目前 Helmholtz 協會下屬成員中,已有 17 個機構有自己的資料管理政策。

目前 Helmholtz 協會維運大約 100 項研究資料基礎設施,並積極參與 re3data 的運作。然而許多研究資料儲存庫尚存在著不少發展空間,例如目前僅有 38 個儲存庫提供 DOI、33 個有資料 API,也僅有九個通過認證。貝特爾曼最後表示,從政策到實施仍有一段崎嶇的道路要走。

另一個在同場次中報告的是瑞士國家科學基金會(Swiss National Science Foundation, SNSF)。SNSF 於 1952 年以基金會方式成立,並藉此確保它的獨立性。基金會經政府授權,資助各學科的研究計畫,截至 2022 年底,共資助了 5500 項計畫,聘有兩萬名研究人員。做為研究資助方的 SNSF 明確規範受資助者有義務以適當的方式,在符合可公開取用的要求下,提供公眾所產出的研究成果;而使用 SNSF 經費蒐集的資料,也須供其他研究人員再次使用。

SNSF 制定有《開放研究資料政策》(Open Research Data Policy)〔註1〕,重點有三項:

1.受資助的計畫需撰寫 DMP。
2.需使用符合 FAIR 資料原則的研究資料儲存庫。
3.除非特定原因,例如法律或倫理的要求,研究資料共享的時間點不可晚於著作發表之時。

在經費方面,SNSF 允許每項計畫編列約一萬歐元的預算,用於研究資料管理和保存(額度視情況並可增 加)。從 2017 年開始,SNSF 要求受資助者撰寫 DMP。通過長期追蹤 DMP 中所註明使用的資料儲存庫,可以得知各學科領域使用儲存庫的情況,例如大多是使用機構儲存庫、通用儲存庫,或是特定領域的儲存庫等。雖然受資助者所發表符合規範的資料集逐年增加,不過 SNSF 仍認為需要持續提供開放研究資料與資料儲存庫的相關指引,並於網站上提供開放研究資料各方面的資訊,讓受資助者有遵循的準則。

ChatGPT、podcast:研究資料管理新嘗試

大會中許多議程和研究資料管理與 DMP 相關,我們選取幾場摘要報導。在一場以 DMP 為主題的議程中,來自新墨西哥大學(University of New Mexico)圖書館和學習科學學院的研究資料服務團隊的分享相當有趣。此團隊正在打造一個「機器可操作的資料管理方案」(machine-actionable data management plan, maDMP)。關於maDMP 可以參考 RDA 提出的通用標準〔註2〕。該團隊討論製作 maDMP 時為符合通用標準,先蒐集了結構化的 DMP 要素。並將所產生的機器可讀 DMP 透過ChatGPT程式界面轉換成敘述性 DMP,再對它的完整性和準確性進行審查。

講者表示確實可透過 ChatDMP 補足缺少的 DMP 要素,不過目前生成式 AI 在資料使用的倫理方面尚未有明確的規範。儘管 AI 生成的 DMP 有機會帶來幫助,但仍需仔細審查和編輯,以確保它的準確性並符合標準。

要如何促進研究人員投入研究資料管理?此議題也受到熱烈討論。2019 年出版的《讓研究者參與資料管理:食譜》(Engaging Researchers with Data Management: The Cookbook)〔註3〕當中有不少實踐案例。RDA「讓研究者參與資料」興趣小組(Engaging Researchers with Data Interest Group)〔註4〕組織了一場「從食譜到工具包」的議程,其中多位講者分享新近的計畫案例及成效。這裡我們介紹 IDEA:Improving Data Engagement and Advocacy 這項計畫。

IDEA 這項計畫以 podcast 形式進行採訪,讓研究資料管理專業人員彼此對話,這跟過去以演講或撰寫文章的推廣方式大有不同。採訪由太平洋西北國家實驗室(Pacific Northwest National Laboratory, PNNL)的謝爾丹(Shannon Sheridan)和賓州州立大學(Pennsylvania State University)資料學習中心範漢姆(Briana Ezray Wham)兩位研究資料圖書館員共同主持,透過 Zoom 進行和錄製訪問。他們的節目互動性和生動性十足,也讓聽眾更能直接獲取資料專職人員在研究資料管理領域的經驗和見解。

來自東亞參與與發表

這次會議在奧地利舉行,因地利之便,來自歐洲的與會者應是最多,但四天當中在會場仍有不少亞洲臉孔,部份來自歐美學術機構的亞裔學者和學生,許多應該是來自東亞。依筆者觀察,中國、日本、韓國三地的參與者應是大宗。除兩位筆者之外,同樣來自臺灣的還包括中央研究院資訊所的博士後研究員鍾明光,以及遠距參加的國家實驗研究院科政中心的助理研究員葉家顯,兩位皆於「智慧與永續城市的資料基礎建設:跨界協作與探索」(Data Infrastructure for Smart and Sustainable Cities: Exploring Cross-Boundary Collaborations)場次報告,該場次議程由陳伶志與莊庭瑞(皆中研院資訊所)所組織,另位報告者為蘇黎世聯邦理工學院(Eidgenössische Technische Hochschule Zürich, ETH)的博士後研究員沙齊(Sachit Mahajan)。

國際資料週歷來有海報徵件的活動,今年同樣有近百篇海報發表。筆者在本次會議也以「培育研究資料管理文化:由下而上實踐資料管理方案」(Cultivating A Culture of Research Data Management through Bottomup Practices of Data Management Planning)進行海報報告。我們跟與會者分享「研究資料寄存所」(depositar, https://data.depositar.io/)和「臺灣生物多樣性資訊機構」(TaiBIF, https://portal.taibif.tw/)的協同合作,透過由下而上的資料管理講習活動,培育研究資料管理的文化。

這兩個團隊均位於臺灣中央研究院。研究資料寄存所自 2022 年開始參與 TaiBIF 長期耕耘的生態多樣性資料工作坊,以研究資料管理概論、資料管理方案撰寫等課程,協助研究人員取得資料管理方案及研究資料寄存的經驗。課程內容鼓勵參與者線上草擬 DMP,並提供 DMP 同儕審查的機會,讓課程參與者以共學方式實踐資料管理文化。

本次會議中,參展的「培育研究資料管理文化:由下而上實踐資料管理方案」海報展示。

展望臺灣的開放科學

臺灣在開放科學方面的起步相對較晚,但這也意味著有許多其他國家的經驗可供我們借鏡。在發展明確的研究資料政策、培訓研究資料專職管理人員,以及持續投資支撐科學研究的資料基礎設施(例如研究資料圖書館、資料儲存庫、和高效能運算中心)等各層面之前,國際資料週會議以及它伴隨的國際研究網絡,都有許多臺灣可以參與、借鏡學習的空間。

 

註解

註1:Swiss National Science Foundation. (2023). Open Research Data.:https://www.snf.ch/en/dMILj9t4LNk8NwyR/topic/open-research-data
註2:RDA DMP Common Standard for Machine-actionable Data Management Plans.:https://doi.org/10.15497/rda00039
註3:Engaging Researchers with Data Management: The Cookbook.:https://www.openbookpublishers.com/product/1080
註4:Engaging Researchers with Data IG.:https://www.rd-alliance.org/groups/engaging-researchers-data-ig

延伸閱讀

1. Helmholtz Association.(2022). Helmholtz Open Science Policy. https://os.helmholtz.de/en/open-science-in-helmholtz/open-science-policy
2. Shannon Sheridan and Briana Ezray Wham. (2023). IDEA: Improving Data Engagement and Advocacy. https://podcasts.apple.com/us/podcast/id1629093355
3. Connie Clare et al., editors. (2019). Engaging Researchers with Data Management: The Cookbook. https://www.openbookpublishers.com/books/10.11647/obp.0185