與國際接軌的 TaiBIF 開放資料服務——專訪劉璟儀內容經理

文字/劉宜庭|編輯/何明諠、王家薰
 

臺灣生物多樣性資訊機構 (Taiwan Biodiversity Information Facility, TaiBIF) 創立於 2004 年,由科技部委託中央研究院生物多樣性研究中心成立及運作。 TaiBIF 長期致力於生物多樣性資料的標準化與公開授權,協助台灣研究者將生物多樣性資料開放到全球性組織、與國際接軌。科技部生農環境與多樣性學門相關計畫的物種資料開放作業即是由 TaBIF主責,其也是全球生物多樣性資訊機構 (Global Biodiversity Information Facility, GBIF) 在台灣的國家節點。

至 2021 年 12 月, TaiBIF 協助台灣學者在 GBIF 上發布的資料量已超過 1150 萬筆;並與行政院農業委員會林務局、林業試驗所、海洋委員會海洋保育署、特有生物研究保育中心、內政部營建署共同促成台灣生物多樣性資訊聯盟 (Taiwan Biodiversity Information Alliance, TBIA) ,就物種名錄整合、共同資料標準、資料庫介接、敏感物種開放原則、生物時空分布圖資、國家級生物多樣性網絡等議題,提出相關解決方針或參考文件。

TaiBIF 有豐富的資料目錄 (Data Catalog) 、資料選擇與提交 (Data Selection and Handover) 的整理經驗。2021 年中,研究資料寄存所專訪 TaiBIF 內容經理劉璟儀。在訪談中,劉璟儀回顧推動生物多樣性資料標準化與公開授權的困難,認為「開放資料文化」與「授權」的觀念仍有待在學界建立;她也建議其他研究者,在研究資料產生前,務必清楚定義欄位格式與說明,讓資料符合「資料標準」,使研究工作事半功倍。

TaiBIF 網站提供科技部生農學門的計畫主持人生物多樣性資料庫,以及上傳、下載、搜尋、檢索資料等服務。
圖 1:TaiBIF 提供科技部生農學門的計畫主持人生物多樣性資料庫,以及上傳、下載、搜尋、檢索資料等服務。

 

做好「研究資料管理」,不只是為了「開放資料」服務

劉璟儀指出, TaiBIF 在資料管理上的主要目標,是提供資訊的基礎建設,如資料庫管理,並建立上傳、下載、搜尋、檢索資料的平台,供科技部生農學門的計畫主持人使用。劉璟儀表示, 「我們最終是希望大家都可以把研究資料開放出來,把物種資料上傳到 TaiBIF ,再接到 GBIF 。」儘管 TaiBIF 投注不少心力於推動研究資料的開放,但站在資料庫管理者的立場,她認為良好的資料管理,最直接的受益者其實是研究者自身:「資料管理不管是對個人研究,或是對資料庫的管理單位而言,都蠻重要的;資料管理能讓研究者更有效率的整理、清理數位化資料,確認資料品質,更方便的管理研究指標。」

作為研究者的協力單位,TaiBIF 的運作也與科技部的資料管理規範有關。劉璟儀表示,在計畫主持人最初申請時,會有一個「你是否同意將物種資料繳交到 TaiBIF 平台」的選項,若計畫主持人勾選該選項、同意開放資料,理論上在總經費中就會多一筆資料管理的費用。科技部則會把通過申請,且有勾選的計畫名單彙整給 TaiBIF ,由 TaiBIF 通知計畫主持人參加工作坊,學習如何整理及上傳研究資料。一般情況下,計畫結束後的三個月內,計畫主持人應繳交資料到 TaiBIF 的資料發布工具 IPT ,計畫主持人也可以透過 TaiBIF 的資料上傳平台,雲端管理相關研究指標。

清楚定義欄位格式與說明,「資料標準」讓研究事半功倍

TaiBIF 網站提供「地理分布線上座標轉換」、「物種中文名比對」、「有效學名比對」工具與相關指引。資料發布工具與個人資料管理則依照 GBIF 規範,提供四種資料類型的發布服務,包括詮釋資料 (Metadata-only) 、物種出現紀錄資料(Occurrence)、物種名錄資料 (Checklist)、調查活動 (Sampling event)。資料集的標準檔案格式採用達爾文核心集標準 (Darwin Core Standard, DwC) ,使用該格式的達爾文核心集檔案 (Darwin Core Archive, DwC-A) ,可與 GBIF 十多億筆的資料互通,也有利於申請由 GBIF 資助的跨國整合型研究計畫。

劉璟儀強調,建立「資料標準」,是讓大家能透過資料庫的共同欄位,發展出一個可共享資料的資料庫。「在所有資料產生前,定義欄位格式跟說明蠻重要的!透過統一欄位標準,使資料結構化,這樣研究者在輸入資料時,才不會雜亂無章,讓後手很難整理,而非要本人親自處理不可;資料欠缺標準,時間久了,可能連本人都忘了當初這個欄位內容的意義是什麼。資料標準是相當重要、可先了解的事,這是在整個資料產生前就能先做好的事。」

圖說:生物多樣性資料標準化的範例
圖 2:達爾文核心集標準首頁

 

以 TaiBIF 管理的詮釋資料集為例,目前是使用達爾文核心集做為資料內容的欄位標準,並以必填的基礎欄位來整合資料。如物種名錄資料集的必填欄位是分類識別碼 (taxonID) 、學名 (scientificName) ;出現紀錄資料集的必填欄位包括紀錄識別碼 (occurrenceID) 、事件日期 (eventDate) 、位置 (locality) 等;調查活動資料集則是事件識別碼 (eventID) 、事件日期 (eventDate) 、調查方法(samplingProtocol)等欄位。以這些基礎欄位為核心,可再補充詳細地點、各分類階層資訊,甚至是相關多媒體連結等資料內容,讓資料集更加完整。

若最初設定資料集的共同欄位時,就以達爾文核心集作為「資料標準」,則這些經過標準化的資料,便可以直接與平台上既有的資料集進行時空分布上的比較;後續將生物多樣性資料集發布到TaiBIF 及 GBIF 平台時,程序也能更簡化。經過標準化的資料,不僅研究者不會忘記每一個欄位對應的資料為何,也能讓其他使用者更容易探索、搜尋、評估與比較資料集,讓研究問題更聚焦。

TaiBIF 關於資料標準化的說明頁面:https://portal.taibif.tw/cookbook/2
圖 3:TaiBIF 關於資料標準化的說明頁面:https://portal.taibif.tw/cookbook/2

 

「資料論文」可保障研究資料被正當引用

回顧推動研究資料管理與開放的困難,劉璟儀認為「開放文化」與「授權」觀念的缺乏,是台灣研究者不願意投入的主因。「許多學者覺得自己的研究論文還沒有發表前,不應把研究資料開放出來,或是這些資料開放後就有機會被別人占為己有。所以我們會去強調資料論文 (data paper) 的功能,說明資料論文如何保障研究資料被引用。」

然而劉璟儀亦坦言,「現況是資料論文在學術圈並不流行。台灣學術現在仍看影響指數 (Impact Factor) 居多,但資料論文的影響指數不一定很高,對多數研究者的誘因就不大;此外,整理資料、管理研究資料這些工作也需要一些知識門檻,計畫主持人不一定不想開放研究資料,只是沒有足夠的時間、心力跟資源去了解所有事情。」

為了促進生物多樣性研究資料開放,帶動更多的學術討論,劉璟儀表示,TaiBIF 計畫推出一些協助研究資料的自動化工具,未來也將花更多心力推廣開放文化與公開授權的觀念,「台灣學界常提到創用 CC,但很少人了解創用 CC 的授權差異,不清楚相關的權利義務是什麼,也不知道各種授權可能衍生出哪些使用上的問題。我觀察到學者有很高的比例會選用 BY-NC,因為大家認為非商業性使用聽起來比較有保障,但這其實對開放資料不友善。真正的開放應該要能自由彈性使用,最好採用 CC-BY 以上,也就是CC0 或 CC-BY。這部分連我自己也有很多東西要釐清。」

共組「臺灣生物多樣性資訊聯盟」,解決物種名錄整合議題

為了讓資料集的使用發揮更大效益,TaiBIF 經常舉辦工作坊,邀請科技部生農學門的計畫主持人、生態學家或各界相關人士互相交流。除了工作坊, TaiBIF 也會在動物行為與生態研討會、生物多樣性主流化研討會等相關場合,擺攤推廣生物多樣性資料標準、開放資料的好處等,試著透過互動小遊戲、懶人包、有獎徵答等活動,思考研究資料管理的重要性,吸引更多人加入開放研究資料的行列。

TaiBIF會定期舉行工作坊及各式活動
圖 4:TaiBIF會定期舉行工作坊及各式活動(圖片來源:TaiBIF)

 

今年度, 中研院生多中心 TaiBIF 與特生中心、林務局、林試所、海保署和營建署也正式共同組成臺灣生物多樣性資訊聯盟 (TBIA) ,期盼在達爾文核心集標準的基礎上,攜手討論出更適合台灣的資料標準,並由國發會頒布該套資料標準,從政策面上實踐大家一起討論的事情。

「我們運作了很多年,每個月開例會,都是義務性的,目前已經列出四大議題,組成四個工作小組。其中一個議題是物種名錄的管理,因為物種名錄在生物多樣性資料方面是一個很大的問題,我們雖然有一個臺灣物種名錄資料庫 (TaiCoL) ,但是因為 TaiCoL 掌管的生物類群很多,更新速度經常跟不上學者的實際需求,變成特生中心、博物館典藏、學者們各自發展出自己的名錄,產生學名統一的問題。物種名錄的整合和更新一直有在保持討論,目前大家已經逐漸形成共識,會以 TaiCoL 為主軸進行整合和更新。」

劉璟儀期許 TBIA 透過機構對機構的合作,解決台灣目前生物多樣性資料四散或缺乏、格式不一致不易應用等問題,善用聯盟的力量,從政策面推動生物多樣性研究資料的整合及共享,提升生物多樣性資訊的能見度。

TBIA
圖 5:TBIA 臺灣生物多樣性資訊聯盟首頁