文/張維芹 研究資料寄存所
訪談逐字稿、線上直播的聊天室記錄、飯席間的對話、部落的傳統知識、殘存的台語片膠卷,這些零散、異質且不易保存的研究的資料,如何在時間流逝與人員更替之中,持續被照護(care),已成為各研究領域共同面對的課題。
研究資料管理(Research Data Management,RDM)關注研究資料的規劃、組織、儲存、保護和共享的過程。如今, RDM 已是研究工作以及計畫提案中不容忽視的重要環節。
在 2026 年 3 月 26 日,台灣的中央研究院舉辦 2026 研究資料管理工作坊(RDMW 2026),邀請在長期社會生態研究、人類學、博物館、數位典藏等領域的專家,分享研究資料管理的實務策略、困境與挑戰。
該工作坊由中研院資訊所的研究資料寄存所實驗室 (depositar lab) 舉辦,團隊由莊庭瑞、李承錱以及王家薰所組成,該團隊建置維運台灣研究資料管理基礎設施 depositar 。
複雜的資料類型:長期社會生態觀測與可持續性的挑戰#
環境污染、水質惡化、地層下陷,這些看似獨立的問題,背後牽涉土地政策、產業結構、社區居民等社會因素,無法僅從自然科學的角度理解。LSTER Taiwan (長期社會生態核心觀測站)長期關注此類議題,團隊受國科會專題計畫補助設立基礎觀測平台,現今共有六個站點分佈於台灣本島:翡翠、彰化、阿里山、西南海岸、綠島、花蓮,以及籌備中的豐濱站,他們在此次工作坊分享資料管理的經驗與挑戰。
長期監測累積的資料,類型遠比想像中複雜。王素芬(彰師大地理系)分享 LTSER 彰化站管理生態與社會資料的經驗。除了數十種環境觀測量化數值外,也包含訪談等質性資料,每一層都需要適合的機制加以保存。
另一方面,黃倬英(台大地理系)長期在山地雲霧帶進行觀測,他分享了資料收集的困境。野外觀測站地處偏遠、人力招募困難,資料的收集與維護高度依賴少數研究人員,一旦人員異動,觀測的連續性就面臨中斷的風險。這同時也是許多長期性的監測計畫研究團隊面臨的挑戰。
袁美華(中研院環變中心)在 LTSER 綠島站的經驗指出,綠島站的訪談資料在整理後,會標注為可供跨國比較研究使用的議題,以及民眾與政府單位關注的在地議題,再上傳至 depositar 並同步公開於綠島站官方網站。團隊嘗試在資料的開放共享與在地脈絡的保留之間取得平衡,確保受訪者的意願在資料流通的過程中持續被尊重。
這種複雜性亦凸顯,研究資料管理從一開始就面臨四個難以迴避的問題:什麼算是資料、這些資料屬於誰、如何長期維護,又該如何調整管理的策略?
訪談、直播、桌邊談話,這些都是研究資料#
資料的邊界比多數人想像的更模糊。李梅君(中研院民族所)長期關注與研究介於虛擬與現實空間的開放公民社群:g0v 零時政府,他們致力於加深公民對社會的貢獻、嘗試透過科技來提出解方。
不過,數位田野的界線是破碎的。多元線上聊天室的對話、直播的即時留言、照片,飯席間的談話、民族誌皆為研究資料。田野期間,她發現這些資料來源分散、難以系統化儲存,僅能仰賴商業的線上筆記工具。李梅君也提醒,部分民族誌本質上就無法以資料庫的形式呈現。因此,推動資料標準化的同時,也需兼顧不同資料類型的特性與脈絡。
然而部分民族誌本質上無法被標準化,並不意味著資料管理在這裡就束手無策。國立臺灣博物館典藏管理組的楊富鈞分享另一種思路。當混亂無法被消除,至少可以像麵包屑一樣,讓後來者仍能循跡而返。
他分享了自然史博物館內,將自然史典藏資料出現紀錄(occurrences)進行資料標準化的經驗。在生物學的標本中,由於同一標本可能經多位專家先後鑑定,標準化過程中容易出現原始鑑定錯用或典藏管理者更動資訊等問題。他建議建立指導規則,善用備註欄記錄決策依據,如國際博物館協會藏品資訊委員會概念參考模型(CIDOC CRM),用明確語義連結各物件以及後設資料修訂的歷史,完整呈現藏品的鑑定生命史。修正後的資料亦可回饋至台灣物種名錄(TaiCOL),並發布至 GBIF(全球生物多樣性資訊機構)。
楊富鈞也建議,如果是實體的典藏物件,因出現新的研究或鑑定,而修改了藏品資訊,也應該持續更新後設資料,同時在鑑定當下將結果數位化,避免資料累積。
換句話說,以標準化強行抹平差異不是唯一的答案。差別在於,如果能從掉落的麵包屑回頭看,便還有機會重新梳理混雜藏品在博物館中的脈絡;另一方面,某些田野資料的可貴之處,本來就存在於它無法被標準化的層次中。
為便於資訊分享與交換,實務上多使用達爾文核心集標準(Darwin Core, DwC)作為生物學資料的標準格式。目前在自然史數位典藏方面,台灣生物多樣性資訊聯盟(TBIA)自然史典藏資料標準工作小組參考 DwC,制定「自然史典藏資料交換參考模板」,盼資料在分享與管理時有指引得以依循。 根據達爾文核心集標準 Darwin Core 的定義: 生物出現紀錄(occurrence):指生物於特定時間及特定空間之出現資訊;包含但不限於由人為觀察、自動化儀器紀錄、人為採集之生物本體與痕跡。 原始鑑定 (verbatimIdentification):呈現分類學鑑定結果在原始紀錄中的原貌,用於保留未經修改的原始鑑定內容,包含鑑定限定詞、雜交公式、不確定性等。
資料怎麼存、誰說了算?一窺資料主權與田野倫理的張力#
Umin・Itei Tanohila 日宏煜(東華大學民族發展與社會工作學系)則從原住民的角度,提出了另一層問題:部落的傳統知識算是資料嗎?如果算,它的定義權在誰手上?這個問題不只是分類學上的難題,更涉及資料收集的正當性。在釐清「什麼是資料」之前,研究者其實已經在做出選擇了。
他也指出,當研究者進入部落收集資料,涉及個人同意、也涉及社群的傳統知識與治理權。部落治理與國家觀測體系之間存在競合關係,研究者在動手收集之前,必須先與部落建立共識,資料的定義、使用方式、乃至於最終的歸屬,都應該納入討論。
李梅君則從人類學的角度,提出「再現的政治」(Politics of Representation)概念,研究者在整理、呈現田野資料的過程中,不可避免地帶入自身的視角與詮釋框架,可能在無意間建構出特定形象,甚至他者化田野的對象。資料不只是被收集的客體,它的呈現方式本身就是一種權力的行使。
然而,有時當資料的歸屬問題尚未釐清,資料本身便已佚失了。中央研究院數位文化中心的許正欣分享與台灣數位博物館(TFAI)合作建立台灣電影片目資料庫(TWMdb) 台語片的典藏經驗。由於大部分膠卷已佚失,研究者僅能從電影海報、場刊、相關文物等附屬物,呈現電影的存在痕跡。原始資料本身已經消失,但這些遺留的資料仍能側面重建電影的生命史。
資料標準來打底,AI 和志工可否接手?#
知道什麼是資料、釐清資料的歸屬之後,還有一個更現實的問題,誰來負責長期維護這些資料?
計畫人員的流動往往導致內部知識的斷層。張筑竣(中研院生物多樣性研究中心)指出,新進人員往往缺乏資料管理的專業訓練,學習成本過高;而當資料欄位定義不清、格式不一致,不同年份的資料需要大量人工整理才能比對使用。
他建議從源頭著手,建立清晰、一致的資料標準(Data Standards),讓欄位定義明確,不只能降低教育成本,也有助於資料機讀友善,為後續導入自動化流程打下基礎。不過他也坦言,採用資料標準有陣痛期,建議在動手遷移既有資料之前,先充分理解各欄位的意義與使用細節。
李思賢(中研院生物多樣性中心)則分享更新中研院植物標本館 HAST 網站,以及整合其他標本館的經驗。具體的作法比如:採用 Darwin Core 資料標準維持一致性,並導入 ARK 持續識別碼確保資料可被長期引用。他也分享,GBIF(全球生物多樣性資訊機構)分析趨勢顯示,無論是觀測資料或是標本資料,總數持續增加,但後設資料的完整性不足的趨勢。
當資料標準到位,自動化才有意義。人力不足、資料又高度仰賴人工稽核的前提下,LTSER 西南海岸站的曹千祐分享具備資料安全機制的資料流程,引入 AI Agent,實現部分作業的自動化。而面對大規模標本數位化的需求,李思賢則分享了另一條路:以「工人智慧」協助完成後設資料的補填,如澳洲 ALA、Zooniverse、歐盟 DiSSCover 等公民科學計畫的經驗,運用人機協作與工人智慧擴大收集資料與數位化的規模。
貫穿這些實踐的,是持續識別碼(Persistent Identifiers,PID)的角色。獨立研究學者 Rorie Edmunds 在工作坊開場時便指出,PID 是確保資料能被長期引用、符合 FAIR 原則中「可被找到」的核心機制,但它的效用建立在後設資料的完整填寫上。現實是,目前台灣僅有少數機構加入 DOI 或 DataCite 等國際識別碼系統,後設資料的完整度也普遍偏低。工具已經存在,但要讓它真正發揮作用,還需要更多人願意投入維護。
FAIR原則 FAIR 原則是一套旨在提升科學研究資料管理與共享的指引,確保資料能夠「可被找到」 (Findable)、「可被取用」(Accessible)、「可相互操作」(Interoperable)與「可再次使用」(Reusable),從而促進開放科學與資料再次使用。
細心照護每一片麵包屑#
在導入 AI、建立自動化流程之前,得先有一致的資料標準。在決定資料標準之前,得先想清楚資料的定義。在定義資料之前,得先處理資料的歸屬與治理。在過程中,資料、技術與社會文化之間的張力從未消失,而正視這個張力,本身就是資料管理的一部分。
台灣擁有豐富的長期觀測積累、多元的田野研究資料,以及橫跨自然史與文化史的典藏資源。但這些資料能不能真正被找到、被理解、被重新使用,取決於團隊願意在技術開發之前,先關照資料治理,制定研究資料管理方案(DMP);也有賴政府對研究資料管理基礎設施的長期挹注。
細心照護每一片麵包屑,才能在未來的科研地圖上找回屬於台灣的完整輪廓。



