讓資料價值顯現的「台灣生物多樣性網絡」——專訪柯智仁、張慧玲研究員

台灣生物樣性網絡

文/何明諠

---

台灣生物多樣性網絡(Taiwan Biodiversity Network,TBN)是致力於彙整生態調查的開放資料,並提供物種分布查詢的線上平台。

TBN 是由農委會特有生物研究保育中心負責維運。特生中心在 2007 年時,依循「生物多樣性公約」的精神(台灣並非締約國),建置了 TBN。TBN 平台上的資料,主要有兩個來源,其一是特生中心內研究員的調查紀錄,其二則是公民科學計畫的成果,目前平台上仍有近 20 個公民科學計畫資料。

營運至今(2022 年 2 月),TBN 的平台上已累積超過 1000 個不同的資料集,總計超過 1,200 萬筆生態資料;而在蒐集資料外,TBN 也透過不同方式,強化其平台上資料的流通與應用。例如目前在平台上,所有的生態資料都可透過地圖網格的視覺化方式顯示其分布狀態;TBN 也在 2021 年參與成立臺灣生物多樣性資訊聯盟(Taiwan Biodiversity Information Alliance,TBIA),擴大平台上資訊的流通。

中央研究院資訊所在 2021 年中就「研究資料管理」的相關議題訪問了研究員柯智仁、張慧玲所帶領的 TBN 團隊 。在訪談中,TBN 詳細說明了生態資料在管理、使用上的問題,以及對應的解決方式。

tbn 透過地圖網格呈現物種分佈
圖 1:TBN 透過地圖網格呈現物種分佈

克服資料不夠多的首要步驟:調整營運方向

「資料流通跟應用是我們目前最優先的項目,其次是推廣公民科學,最後才是資料品質管理。」柯智仁說,這是 TBN 在 2017 年後,逐步調整資料管理重點,所得出的排序。在此之前的 TBN,是以推廣公民科學為首要營運重點,會親身在第一線推廣公民科學,蒐集相關資料。

在被問及為何要重新運作方向時,柯智仁表示,主要是希望 TBN 的資金提供者(例如國發會)能看到資料的利用價值。儘管目前平台上有上千萬筆資料,然而在 2017 年以前,TBN 資料的總筆數不到50萬筆,資料筆數不多,也欠缺許多物種的資料(例如植物),整體瀏覽及使用量都有待改進。「如果今天是以研究人員為主,資料庫使用量很少似乎還說得過去;但如是以大眾為目標,使用量依然很低,那明顯就是方向出了問題。」柯智仁說。

在這樣的想法下,TBN 在 2017 年後,開始重新配置組織內的資源,將公民科學的推廣與相關資料的蒐集,交由其他單位的計畫主持人處理,TBN 則與計畫主持人接洽,不再親上前線,而更專注於特生中心內外資料的彙整、流通、與應用。

圖/柯智仁 - 讓資料的價值被看見能否鼓勵資料的管理與開放?
圖 2: TBN 的資料成長狀況(source: 柯智仁 - 讓資料的價值被看見能否鼓勵資料的管理與開放?)

簡單就好:以上傳者為核心的資料匯集模式

調整平台的運作方向,只是加速展現資料利用價值的第一步, TBN 在彙整資料時,依然遭遇許多問題。例如兩位受訪的研究員皆表示,如何讓研究員有「能力」共享資料,是其中最棘手的問題之一。柯智仁說:「很多研究者其實有意願共享資料,但他們給的資料,往往只有自己能懂。」;張慧玲也表示:「過往常見的情形是,有些專家願意交資料,但卻發現還要花很多研究時間來整理資料,這就造成分享的困難。」

為解決前述難題,TBN 嘗試了不少方法。張慧玲說:「有的資料庫推行只填後設資料(Metadata)的方式,希望能節省研究者整理原始資料的心力,卻導致研究者花更多時間填後設資料,還得了解那些詞條。 」 TBN 也曾想由廣納生態分類選項標準著手,希望系統能將各種研究者使用的分類觀點納入,提高使用者的使用動機,但因此可能產生非常長或多階層的選單,反而不利填寫。

嘗試了許多方法後,TBN 最終以相對簡單的方式,處理資料彙整的問題。柯智仁指出,TBN 會與研究者溝通,理解其基本的研究需求,在系統端改善;並在此基礎上,採用一維表格,僅要求研究者上傳資料利用所需的最少資料,這是 TBN 目前認為的最佳作法。「我會盡可能請大家不要把資料拆成不同表單,可以的話,都在一張表單做管理,如此應可以解決很多生物調查資料的混亂。」柯智仁說。

簡化輸入流程、以成果導向來設計資料需求,藉此鼓勵研究者將自己的資料發布成開放資料,是 TBN 近年來推動研究資料開放的主要作法。

「如何取捨」是所有難題的核心

在訪談過程中,我們曾試著追問, TBN 為何不要求特生中心制定資料政策,規定研究者一定要繳交資料。「因為我希望讓資料完整的進來。」柯智仁坦言,「我們聽過太多對系統無盡的抱怨,規定應繳資料的狀況,可能會因系統嚴格的設計,造成大家只繳篩選後最低限的應繳資料。但我們其實不知道一個計畫到底有多少筆資料。」

欠缺強制規定有利有弊,TBN 希望藉此取得更完整的資料,但相對也須付出更多心力,打造符合研究者需求,讓研究者願意上傳資料的系統。所以在資源有限的前提下,資源如何配置,滿足誰的需求,就成了首要面對的問題;而迅速增加的資料量,也持續拉高儲存與維運系統的成本,穩定而長期的營運資源,也是亟需解決的事。

最後,不同類型研究者的需求,也影響到 TBN 希望彙整動、植物資料在同一平台的理想。負責植物資料彙整的張慧玲指出,植物分類群繁多,詳細完整的名錄與標本紀錄是研究人員的首要需求,但這和 TBN 目前以簡單規劃為主的輸入方式不同。「其實只是切入點不同,植物資料至今仍無法由系統自動化同步到 TBN。」張慧玲說,「雖然優先順序和客群不同,但最終我們有把這些資料保留下來,先以手動方式整合至TBN,這和早期動、植物資料完全分開的狀況,已改善很多了。」

柯智仁研究員
圖 3:柯智仁研究員
張慧玲研究員
圖 4:張慧玲研究員