撿起資料的麵包屑——2026研究資料管理工作坊活動紀實

文／張維芹研究資料寄存所

訪談逐字稿、線上直播的聊天室記錄、飯席間的對話、部落的傳統知識、殘存的台語片膠卷，這些零散、異質且不易保存的研究的資料，如何在時間流逝與人員更替之中，持續被照護（care），已成為各研究領域共同面對的課題。

研究資料管理（Research Data Management，RDM）關注研究資料的規劃、組織、儲存、保護和共享的過程。如今， RDM 已是研究工作以及計畫提案中不容忽視的重要環節。

在 2026 年 3 月 26 日，台灣的中央研究院舉辦 2026 研究資料管理工作坊（RDMW 2026），邀請在長期社會生態研究、人類學、博物館、數位典藏等領域的專家，分享研究資料管理的實務策略、困境與挑戰。

該工作坊由中研院資訊所的研究資料寄存所實驗室 (depositar lab) 舉辦，團隊由莊庭瑞、李承錱以及王家薰所組成，該團隊建置維運台灣研究資料管理基礎設施 depositar 。

複雜的資料類型：長期社會生態觀測與可持續性的挑戰
#

環境污染、水質惡化、地層下陷，這些看似獨立的問題，背後牽涉土地政策、產業結構、社區居民等社會因素，無法僅從自然科學的角度理解。LSTER Taiwan （長期社會生態核心觀測站）長期關注此類議題，團隊受國科會專題計畫補助設立基礎觀測平台，現今共有六個站點分佈於台灣本島：翡翠、彰化、阿里山、西南海岸、綠島、花蓮，以及籌備中的豐濱站，他們在此次工作坊分享資料管理的經驗與挑戰。

長期監測累積的資料，類型遠比想像中複雜。王素芬（彰師大地理系）分享 LTSER 彰化站管理生態與社會資料的經驗。除了數十種環境觀測量化數值外，也包含訪談等質性資料，每一層都需要適合的機制加以保存。

另一方面，黃倬英（台大地理系）長期在山地雲霧帶進行觀測，他分享了資料收集的困境。野外觀測站地處偏遠、人力招募困難，資料的收集與維護高度依賴少數研究人員，一旦人員異動，觀測的連續性就面臨中斷的風險。這同時也是許多長期性的監測計畫研究團隊面臨的挑戰。

袁美華（中研院環變中心）在 LTSER 綠島站的經驗指出，綠島站的訪談資料在整理後，會標注為可供跨國比較研究使用的議題，以及民眾與政府單位關注的在地議題，再上傳至 depositar 並同步公開於綠島站官方網站。團隊嘗試在資料的開放共享與在地脈絡的保留之間取得平衡，確保受訪者的意願在資料流通的過程中持續被尊重。

這種複雜性亦凸顯，研究資料管理從一開始就面臨四個難以迴避的問題：什麼算是資料、這些資料屬於誰、如何長期維護，又該如何調整管理的策略？

訪談、直播、桌邊談話，這些都是研究資料
#

資料的邊界比多數人想像的更模糊。李梅君（中研院民族所）長期關注與研究介於虛擬與現實空間的開放公民社群：g0v 零時政府，他們致力於加深公民對社會的貢獻、嘗試透過科技來提出解方。

不過，數位田野的界線是破碎的。多元線上聊天室的對話、直播的即時留言、照片，飯席間的談話、民族誌皆為研究資料。田野期間，她發現這些資料來源分散、難以系統化儲存，僅能仰賴商業的線上筆記工具。李梅君也提醒，部分民族誌本質上就無法以資料庫的形式呈現。因此，推動資料標準化的同時，也需兼顧不同資料類型的特性與脈絡。

然而部分民族誌本質上無法被標準化，並不意味著資料管理在這裡就束手無策。國立臺灣博物館典藏管理組的楊富鈞分享另一種思路。當混亂無法被消除，至少可以像麵包屑一樣，讓後來者仍能循跡而返。

他分享了自然史博物館內，將自然史典藏資料出現紀錄（occurrences）進行資料標準化的經驗。在生物學的標本中，由於同一標本可能經多位專家先後鑑定，標準化過程中容易出現原始鑑定錯用或典藏管理者更動資訊等問題。他建議建立指導規則，善用備註欄記錄決策依據，如國際博物館協會藏品資訊委員會概念參考模型（CIDOC CRM），用明確語義連結各物件以及後設資料修訂的歷史，完整呈現藏品的鑑定生命史。修正後的資料亦可回饋至台灣物種名錄（TaiCOL），並發布至 GBIF（全球生物多樣性資訊機構）。

楊富鈞也建議，如果是實體的典藏物件，因出現新的研究或鑑定，而修改了藏品資訊，也應該持續更新後設資料，同時在鑑定當下將結果數位化，避免資料累積。

換句話說，以標準化強行抹平差異不是唯一的答案。差別在於，如果能從掉落的麵包屑回頭看，便還有機會重新梳理混雜藏品在博物館中的脈絡；另一方面，某些田野資料的可貴之處，本來就存在於它無法被標準化的層次中。

為便於資訊分享與交換，實務上多使用達爾文核心集標準（Darwin Core, DwC）作為生物學資料的標準格式。目前在自然史數位典藏方面，台灣生物多樣性資訊聯盟（TBIA）自然史典藏資料標準工作小組參考 DwC，制定「自然史典藏資料交換參考模板」，盼資料在分享與管理時有指引得以依循。根據達爾文核心集標準 Darwin Core 的定義：生物出現紀錄（occurrence）：指生物於特定時間及特定空間之出現資訊；包含但不限於由人為觀察、自動化儀器紀錄、人為採集之生物本體與痕跡。原始鑑定 (verbatimIdentification)：呈現分類學鑑定結果在原始紀錄中的原貌，用於保留未經修改的原始鑑定內容，包含鑑定限定詞、雜交公式、不確定性等。

資料怎麼存、誰說了算？一窺資料主權與田野倫理的張力
#

Umin・Itei Tanohila 日宏煜（東華大學民族發展與社會工作學系）則從原住民的角度，提出了另一層問題：部落的傳統知識算是資料嗎？如果算，它的定義權在誰手上？這個問題不只是分類學上的難題，更涉及資料收集的正當性。在釐清「什麼是資料」之前，研究者其實已經在做出選擇了。

他也指出，當研究者進入部落收集資料，涉及個人同意、也涉及社群的傳統知識與治理權。部落治理與國家觀測體系之間存在競合關係，研究者在動手收集之前，必須先與部落建立共識，資料的定義、使用方式、乃至於最終的歸屬，都應該納入討論。

李梅君則從人類學的角度，提出「再現的政治」（Politics of Representation）概念，研究者在整理、呈現田野資料的過程中，不可避免地帶入自身的視角與詮釋框架，可能在無意間建構出特定形象，甚至他者化田野的對象。資料不只是被收集的客體，它的呈現方式本身就是一種權力的行使。

然而，有時當資料的歸屬問題尚未釐清，資料本身便已佚失了。中央研究院數位文化中心的許正欣分享與國家電影及視聽文化中心（TFAI）合作建立台灣電影片目資料庫（TWMDb）台語片的典藏經驗。由於大部分膠卷已佚失，研究者僅能從電影海報、場刊、相關文物等附屬物，呈現電影的存在痕跡。原始資料本身已經消失，但這些遺留的資料仍能側面重建電影的生命史。

資料標準來打底，AI 和志工可否接手？
#

知道什麼是資料、釐清資料的歸屬之後，還有一個更現實的問題，誰來負責長期維護這些資料？

計畫人員的流動往往導致內部知識的斷層。張筑竣（中研院生物多樣性研究中心）指出，新進人員往往缺乏資料管理的專業訓練，學習成本過高；而當資料欄位定義不清、格式不一致，不同年份的資料需要大量人工整理才能比對使用。

他建議從源頭著手，建立清晰、一致的資料標準（Data Standards），讓欄位定義明確，不只能降低教育成本，也有助於資料機讀友善，為後續導入自動化流程打下基礎。不過他也坦言，採用資料標準有陣痛期，建議在動手遷移既有資料之前，先充分理解各欄位的意義與使用細節。

李思賢（中研院生物多樣性中心）則分享更新中研院植物標本館 HAST 網站，以及整合其他標本館的經驗。具體的作法比如：採用 Darwin Core 資料標準維持一致性，並導入 ARK 持續識別碼確保資料可被長期引用。他也分享，GBIF（全球生物多樣性資訊機構）分析趨勢顯示，無論是觀測資料或是標本資料，總數持續增加，但後設資料的完整性不足的趨勢。

當資料標準到位，自動化才有意義。人力不足、資料又高度仰賴人工稽核的前提下，LTSER 西南海岸站的曹千祐分享具備資料安全機制的資料流程，引入 AI Agent，實現部分作業的自動化。而面對大規模標本數位化的需求，李思賢則分享了另一條路：以「工人智慧」協助完成後設資料的補填，如澳洲 ALA、Zooniverse、歐盟 DiSSCover 等公民科學計畫的經驗，運用人機協作與工人智慧擴大收集資料與數位化的規模。

貫穿這些實踐的，是持續識別碼（Persistent Identifiers，PID）的角色。獨立研究學者 Rorie Edmunds 在工作坊開場時便指出，PID 是確保資料能被長期引用、符合 FAIR 原則中「可被找到」的核心機制，但它的效用建立在後設資料的完整填寫上。現實是，目前台灣僅有少數機構加入 DOI 或 DataCite 等國際識別碼系統，後設資料的完整度也普遍偏低。工具已經存在，但要讓它真正發揮作用，還需要更多人願意投入維護。