易找、易得、易整合、可再用的 TCCIP——專訪劉子明研究員

文字/劉宜庭|編輯/何明諠、王家薰

臺灣氣候變遷推估資訊與調適知識平台 (Taiwan Climate Change Projection Information and Adaptation Knowledge Platform, TCCIP) 是自 2009 11 月起開始執行的氣候變遷資料與調適知識整合服務平台,由科技部支持,國家災害防救科技中心統籌及運作。計畫之初, TCCIP與國內外各單位合作,蒐集台灣百年來的氣候資料,整理並轉化成有系統的數位資訊;其後,再透過觀測資料網格化,結合國外氣候變遷模式與國內研究,分析及推估台灣的氣候變化,建立氣候變遷的數據平台。

TCCIP 長期提供台灣氣候變遷科學資料、資訊、調適知識、工具與相關技術服務,支援各界研究者,使其能容易查找、取用、整合資料庫中的各種氣候資料; TCCIP 也依照資料特性,制定四個層級的資料開放政策,並對資料產製、資料檢核的程序制定標準作業流程。

TCCIP 在資料管理規劃 (Data Management Planning) 、研究資料管理政策與策略 的經驗豐富。2021 年中,研究資料寄存所專訪 TCCIP 研究員劉子明。在訪談中,劉子明分享 TCCIP 資料產製的標準作業流程,說明如何透過資料檢核標準作業流程維護資料品質,並指出每一組資料從產製、檢核到儲存、發布,都需要透過資料管理計畫來確保每一步的細節;他也建議其他研究者,擬定資料管理計畫時,可以先從研究中比較關鍵的環節著手,不需一開始就設定過大的目標,從小目標慢慢擴及到整個研究資料的管理。

 

制定資料標準作業流程 ,檔頭變數名稱一致化

劉子明指出, TCCIP 分三組, team 1 負責資料產製, team 2 處理資料應用, team 3 是平台維護、服務與推廣,「我們從實務經驗發現,若未制定資料的標準作業流程 (SOP),三個團隊容易在資料處理的過程中脫鉤;於是我們先從資料產製流程的 SOP 著手 ,例如如何進行程式編寫、測試、輸出、針對使用者應用層面的格式轉換、以及中繼資料的輸出與儲存等;同時也要求 team 1 要事先評估資料產製的時程,以便 team 3 安排作業時程。」

TCCIP 組織架構圖
圖1: TCCIP 組織架構圖 (摘自:https://tccip.ncdr.nat.gov.tw/au_02.aspx)

 

劉子明指出,TCCIP 在資料產製的標準作業流程 (SOP) 中,特別規範 nc 的檔頭 (header)變數必須名稱一致,例如降雨用 Pr ,均溫用 Tas ,最高溫用 TasMAX 等。nc檔是一種網路通用資料格式 (Network Common Data Form, NetCDF) ,會把所有與檔案內容相關的資訊都記錄在檔頭,多數氣象領域常用的軟體(如 NCAR Graphics GrADS 等),大多都採用 nc 檔的儲存方式。

除了資料產製的 SOP TCCIP 也制定出資料檢核的 SOP 。「檢核流程的 SOP ,包括最開始要先確認是否已有所需的資料來源、相關資料是否可以直接使用;接著是從產製端、應用端,分別去檢核資料的精度是否足夠。執行資料的格式轉換、壓縮與上架時,我們也會再次檢核資料品質。」

與此同時, TCCIP 也透過手動打包資料及上架的過程,進一步確保資料品質,「程式是人寫的,有時候可能迴圈少了,資料稍微變了型式,就會出錯;但是採用人工作業,又一定會有個別程度上的差異,所以我們最後決定訂出 SOP ,讓大家清楚地知道在資料品質維護上必須要落實、了解的T事項」。

資料產製 SOP
圖2: TCCIP 資料產製 SOP

 

善用「生產履歷」讓使用者知道資料如何產製

TCCIP 制定資料產製、資料檢核、資料上架的標準作業流程,用以確保資料品質。TCCIP 亦會針對各個資料集發佈生產履歷,詳細記載資料集上架及更新的時間,摘要資料產製目的,說明資料來源、產製流程、參考文獻、發表文章等資訊。

劉子明強調,「TCCIP 的資料集很多都是數值模擬的結果,跟原始觀測的資料不太一樣,因此生產履歷很重要,能讓人知道這個資料集的產生方式。 」 TCCIP 同時提供觀測資料與模式資料,而全球氣候模式資料的降尺度方法主要又分為統計降尺度 (Statistical Downscaling) 、動力降尺度 (Dynamical Downscaling) 兩種,了解資料在產製過程使用的模式處理細節,對研究者來說相當重要。

以台灣歷史氣候重建資料的資料生產履歷為例,「我們需要說明清楚,這份資料裡的雨量觀測資料,其實是透過模式模擬出來的,無論如何都會跟實際的觀測資料有偏差。如果研究者要做一些有變數關聯性的研究,好比說研究雲霧帶需要同時考慮到風、濕度、降雨等好幾個變數,且是一般測站缺乏的觀測資料,我們會建議研究者可使用我們的台灣歷史氣候重建資料,同時比對觀測資料;若只是單純的雨量跟氣溫分析,或許使用觀測資料反而可以得到比較好的結果。」

劉子明表示,由於 TCCIP 的氣候推估資料都是經過數值模擬的資料,往往需要透過生產履歷,進一步說明數值模擬的過程,亦可能改版或更新,所以沒辦法完全採取開放資料 (Open Data) 的方式,直接把分類或校正過的資料開放給外界,「資料會有一些不確定性,例如數值模擬過程的差異,換一個 model 結果可能就不一樣,因此 TCCIP 需要發布生產履歷用來說明清楚這件事情」。

 

按研究發表情況分四級開放資料,資料改版主動通知 

為確保研究資料能被妥善利用, TCCIP 根據資料集應用上可能帶來的不確定性,制定資料政策,區分出四種資料層級,包括 Level 1 開放資料、 Level 2 限制開放資料、 Level 3 進階資料、 Level 4 測試資料,「例如 Level 3 這組資料是不確定性較高的,但比 Level 4 資料的應用更成熟、也曾應用在論文發表上,所以只要你跟我們申請,並了解它的不確定性,我們就提供讓你使用」。

除明定資料分級以提醒使用者謹慎使用資料外,資料改版、更新等狀況, TCCIP 也會主動通知使用者。劉子明表示,「改版就類似於推出新的資料,所以我們會去通知使用者;對使用 TCCIP 的數百名研究者而言,這些資料改版都有其重要性,也都可能有重大修正,所以我們一定會透過平台、電子郵件通知使用者。」

TCCIP分成四種對外開放的資料層級
圖3: TCCIP分成四種對外開放的資料層級 (摘自https://tccip.ncdr.nat.gov.tw/ds_03_資料清單.aspx)

 

以使用者需求為導向的資料管理

使用者需求導向,是任何服務的重點項目。TCCIP 不只是單方面的提供資料分級與更新告知,也會設法理解使用者需求,以進行資料管理的調整。劉子明指出,例如透過資料集的下載紀錄,以及各使用者的背景資訊,包括研究領域、所屬單位等,就可能區辨出研究者常用的資料集、慣用的資料解析度。如此就能對大家比較沒注意到的資料,進行更多的說明與宣傳。

在下載紀錄分析外,TCCIP 也會實際與使用者互動,以理解其需求。「我們會舉辦發表會,透過與研究者的現場互動,推廣一些資料集,了解大家對資料的疑問或對我們的期待;每半年或一年,也會發送問卷,蒐集使用者反饋。對我們來說,比較重要的是發表會現場,可以透過一些互動知道資料在實際應用層面的問題。此外,我們也會進行使用者訪談,拍攝影片紀錄及分享使用者如何應用 TCCIP 的資料、資料使用的過程需注意的細節。」

 

從核心資料著手,落實可對應 FAIR 原則的資料管理計畫

提及最想與其他研究者分享的資料管理經驗,劉子明說,「曾有人問我要怎麼擬定資料管理計畫,我會建議大家,一開始目標不要訂太大,想好你計畫中比較重要的一環,設法管理好那一塊,再從這個小目標,慢慢擴及到其他需要管理的所有研究資料」,以 TCCIP 為例,「我們先針對氣候服務對外要提供的資料去做資料管理計畫,檢視可落實 FAIR 原則的措施,再從計畫內部如何產製資料、如何對外服務,一步步去訂出指引、標準,最後將這些可以參考的細節集合成資料管理計畫」。

劉子明強調, TCCIP 的資料管理計畫就是落實 FAIR 原則的過程,「 FAIR 原則是一個大概念,而我們試著透過各種 SOP 去對應到它」,包括建置平台提供搜尋、下載等對外服務,達成易找 (Findable) 、易得 (Accessible) 的目標;並透過計畫內部的資料生產履歷(資料說明文件)、資料上架、資料品質檢核、資料分級開放政策等標準作業流程,落實易整合 (Interoperability)、可再用 (Reusable) 的原則,藉此逐步完善整個 TCCIP 的資料管理計畫。