文字/劉宜庭|編輯/何明諠、王家薰
臺灣氣候變遷推估資訊與調適知識平台 (Taiwan Climate Change Projection Information and Adaptation Knowledge Platform, TCCIP) 是自 2009 年11 月起開始執行的氣候變遷資料與調適知識整合服務平台,由科技部支持,國家災害防救科技中心統籌及運作。計畫之初, TCCIP與國內外各單位合作,蒐集台灣百年來的氣候資料,整理並轉化成有系統的數位資訊;其後,再透過觀測資料網格化,結合國外氣候變遷模式與國內研究,分析及推估台灣的氣候變化,建立氣候變遷的數據平台。
TCCIP 長期提供台灣氣候變遷科學資料、資訊、調適知識、工具與相關技術服務,支援各界研究者,使其能容易查找、取用、整合資料庫中的各種氣候資料; TCCIP 也依照資料特性,制定四個層級的資料開放政策,並對資料產製、資料檢核的程序制定標準作業流程。
TCCIP 在資料管理規劃 (Data Management Planning) 、研究資料管理政策與策略 的經驗豐富。2021 年中,研究資料寄存所專訪 TCCIP 研究員劉子明。在訪談中,劉子明分享 TCCIP 資料產製的標準作業流程,說明如何透過資料檢核標準作業流程維護資料品質,並指出每一組資料從產製、檢核到儲存、發布,都需要透過資料管理計畫來確保每一步的細節;他也建議其他研究者,擬定資料管理計畫時,可以先從研究中比較關鍵的環節著手,不需一開始就設定過大的目標,從小目標慢慢擴及到整個研究資料的管理。
制定資料標準作業流程 ,檔頭變數名稱一致化
劉子明指出, TCCIP 分三組, team 1 負責資料產製, team 2 處理資料應用, team 3 是平台維護、服務與推廣,「我們從實務經驗發現,若未制定資料的標準作業流程 (SOP),三個團隊容易在資料處理的過程中脫鉤;於是我們先從資料產製流程的 SOP 著手 ,例如如何進行程式編寫、測試、輸出、針對使用者應用層面的格式轉換、以及中繼資料的輸出與儲存等;同時也要求 team 1 要事先評估資料產製的時程,以便 team 3 安排作業時程。」
劉子明指出,TCCIP 在資料產製的標準作業流程 (SOP) 中,特別規範 nc 檔的檔頭 (header)變數必須名稱一致,例如降雨用 Pr ,均溫用 Tas ,最高溫用 TasMAX 等。nc檔是一種網路通用資料格式 (Network Common Data Form, NetCDF) ,會把所有與檔案內容相關的資訊都記錄在檔頭,多數氣象領域常用的軟體(如 NCAR Graphics 、 GrADS 等),大多都採用 nc 檔的儲存方式。
除了資料產製的 SOP , TCCIP 也制定出資料檢核的 SOP 。「檢核流程的 SOP ,包括最開始要先確認是否已有所需的資料來源、相關資料是否可以直接使用;接著是從產製端、應用端,分別去檢核資料的精度是否足夠。執行資料的格式轉換、壓縮與上架時,我們也會再次檢核資料品質。」
與此同時, TCCIP 也透過手動打包資料及上架的過程,進一步確保資料品質,「程式是人寫的,有時候可能迴圈少了,資料稍微變了型式,就會出錯;但是採用人工作業,又一定會有個別程度上的差異,所以我們最後決定訂出 SOP ,讓大家清楚地知道在資料品質維護上必須要落實、了解的T事項」。
善用「生產履歷」讓使用者知道資料如何產製
TCCIP 制定資料產製、資料檢核、資料上架的標準作業流程,用以確保資料品質。TCCIP 亦會針對各個資料集發佈生產履歷,詳細記載資料集上架及更新的時間,摘要資料產製目的,說明資料來源、產製流程、參考文獻、發表文章等資訊。
劉子明強調,「TCCIP 的資料集很多都是數值模擬的結果,跟原始觀測的資料不太一樣,因此生產履歷很重要,能讓人知道這個資料集的產生方式。 」 TCCIP 同時提供觀測資料與模式資料,而全球氣候模式資料的降尺度方法主要又分為統計降尺度 (Statistical Downscaling) 、動力降尺度 (Dynamical Downscaling) 兩種,了解資料在產製過程使用的模式處理細節,對研究者來說相當重要。
以台灣歷史氣候重建資料的資料生產履歷為例,「我們需要說明清楚,這份資料裡的雨量觀測資料,其實是透過模式模擬出來的,無論如何都會跟實際的觀測資料有偏差。如果研究者要做一些有變數關聯性的研究,好比說研究雲霧帶需要同時考慮到風、濕度、降雨等好幾個變數,且是一般測站缺乏的觀測資料,我們會建議研究者可使用我們的台灣歷史氣候重建資料,同時比對觀測資料;若只是單純的雨量跟氣溫分析,或許使用觀測資料反而可以得到比較好的結果。」
劉子明表示,由於 TCCIP 的氣候推估資料都是經過數值模擬的資料,往往需要透過生產履歷,進一步說明數值模擬的過程,亦可能改版或更新,所以沒辦法完全採取開放資料 (Open Data) 的方式,直接把分類或校正過的資料開放給外界,「資料會有一些不確定性,例如數值模擬過程的差異,換一個 model 結果可能就不一樣,因此 TCCIP 需要發布生產履歷用來說明清楚這件事情」。
按研究發表情況分四級開放資料,資料改版主動通知
為確保研究資料能被妥善利用, TCCIP 根據資料集應用上可能帶來的不確定性,制定資料政策,區分出四種資料層級,包括 Level 1 開放資料、 Level 2 限制開放資料、 Level 3 進階資料、 Level 4 測試資料,「例如 Level 3 這組資料是不確定性較高的,但比 Level 4 資料的應用更成熟、也曾應用在論文發表上,所以只要你跟我們申請,並了解它的不確定性,我們就提供讓你使用」。
除明定資料分級以提醒使用者謹慎使用資料外,資料改版、更新等狀況, TCCIP 也會主動通知使用者。劉子明表示,「改版就類似於推出新的資料,所以我們會去通知使用者;對使用 TCCIP 的數百名研究者而言,這些資料改版都有其重要性,也都可能有重大修正,所以我們一定會透過平台、電子郵件通知使用者。」
以使用者需求為導向的資料管理
使用者需求導向,是任何服務的重點項目。TCCIP 不只是單方面的提供資料分級與更新告知,也會設法理解使用者需求,以進行資料管理的調整。劉子明指出,例如透過資料集的下載紀錄,以及各使用者的背景資訊,包括研究領域、所屬單位等,就可能區辨出研究者常用的資料集、慣用的資料解析度。如此就能對大家比較沒注意到的資料,進行更多的說明與宣傳。
在下載紀錄分析外,TCCIP 也會實際與使用者互動,以理解其需求。「我們會舉辦發表會,透過與研究者的現場互動,推廣一些資料集,了解大家對資料的疑問或對我們的期待;每半年或一年,也會發送問卷,蒐集使用者反饋。對我們來說,比較重要的是發表會現場,可以透過一些互動知道資料在實際應用層面的問題。此外,我們也會進行使用者訪談,拍攝影片紀錄及分享使用者如何應用 TCCIP 的資料、資料使用的過程需注意的細節。」
從核心資料著手,落實可對應 FAIR 原則的資料管理計畫
提及最想與其他研究者分享的資料管理經驗,劉子明說,「曾有人問我要怎麼擬定資料管理計畫,我會建議大家,一開始目標不要訂太大,想好你計畫中比較重要的一環,設法管理好那一塊,再從這個小目標,慢慢擴及到其他需要管理的所有研究資料」,以 TCCIP 為例,「我們先針對氣候服務對外要提供的資料去做資料管理計畫,檢視可落實 FAIR 原則的措施,再從計畫內部如何產製資料、如何對外服務,一步步去訂出指引、標準,最後將這些可以參考的細節集合成資料管理計畫」。
劉子明強調, TCCIP 的資料管理計畫就是落實 FAIR 原則的過程,「 FAIR 原則是一個大概念,而我們試著透過各種 SOP 去對應到它」,包括建置平台提供搜尋、下載等對外服務,達成易找 (Findable) 、易得 (Accessible) 的目標;並透過計畫內部的資料生產履歷(資料說明文件)、資料上架、資料品質檢核、資料分級開放政策等標準作業流程,落實易整合 (Interoperability)、可再用 (Reusable) 的原則,藉此逐步完善整個 TCCIP 的資料管理計畫。