Research Data Management Hub

[depositar] 以技術克服科研運算可再現性的挑戰貫徹開放科學的理念

研究資料寄存所編輯群 — Fri, 15 Mar 2024 07:30:16 +0000

[depositar] 以技術克服科研運算可再現性的挑戰貫徹開放科學的理念研究資料寄存所編輯群週五, 03/15/2024 - 15:30

2023 國際資料週「資料節慶」一窺研究資料管理發展

研究資料寄存所編輯群 — Tue, 16 Jan 2024 04:10:15 +0000

2023 國際資料週「資料節慶」一窺研究資料管理發展研究資料寄存所編輯群二, 01/16/2024 - 12:10

[活動報名] 2023 研究資料管理工作坊

admin — Mon, 04 Dec 2023 11:58:00 +0000

[活動報名] 2023 研究資料管理工作坊 admin 週一, 12/04/2023 - 19:58

讓大眾取用政府資助的研究成果美國與臺灣新近的發展

研究資料寄存所編輯群 — Wed, 15 Nov 2023 02:54:21 +0000

讓大眾取用政府資助的研究成果美國與臺灣新近的發展研究資料寄存所編輯群三, 11/15/2023 - 10:54

過去還是未來？淺談萬物相連的語意網

研究資料寄存所編輯群 — Fri, 09 Dec 2022 07:14:30 +0000

過去還是未來？淺談萬物相連的語意網研究資料寄存所編輯群週五, 12/09/2022 - 15:14

本著作係採用創用 CC 姓名標示-相同方式分享 4.0 國際授權條款授權.

本文原刊於 2022-11-30《藝術松No.3：關於Web3》

作者：

李承錱（中央研究院，資訊科學研究所｜研究資料寄存所¹）
何明諠（中央研究院，資訊科技創新研究中心｜研究資料寄存所）
王家薰（中央研究院，資訊科學研究所｜研究資料寄存所）

語意網的哲學視角

奧地利哲學家維根斯坦 (Ludwig Wittgenstein) 在《哲學研究》(Philosophical Investigations) 中的開篇即指出，語言中的字詞命名了各物。命名使每個字詞都有相關聯的「意義」(meaning)，某個字詞的意義，即來自它被用於指涉何物 (Wittgenstein, 1973)。維根斯坦所說的「物」(object)，可以是客觀世界的物，但也能是存在於某人心中的所想。在此基礎上，語句的對錯僅在於其是否吻合某種既存的事態 (existing state of affairs) (Jahanforouz, 2019; Aaberge, 2013)。

維根斯坦對語言和意義的看法，挑戰了柏拉圖以降，認為事物有其真正的本質，而語句的對錯判準，在於其是否符應事物本質的理型論者想法，但也引出了私有語言 (private language) 或共通理解如何可能等相關問題。儘管持續存在爭議，但沿著維根斯坦對語言的理解，卻可用來掌握本文主題「語意網」(Semantic Web) 所打算處理的問題。

語意網並非近年才出現的新概念。在 1994 年，全球資訊網發明人 Tim Berners-Lee 在首次的全球資訊網研討會 (World Wide Web Conference) 上，以「網路對語意的需求」（The Need for Semantics in the Web）為題，提出了「語意網」的構想 (Berners-Lee, 1994)。

語意網的原始構想並不複雜。打造語意網，並非要打造另一個新的網路，而是要讓既有的網路資料，成為可被機器理解，亦即機器可讀 (machine-readable) 的資料。我們眾人所接觸的網頁，主要是以 HTML (HyperText Markup Language，超文本標記語言) 這套語法所撰寫。HTML 的主要功能，是透過一系列預先定義好的 HTML 標籤 (HTML tags)，使不同機器能以相同形式，展示人類使用自然語言所撰寫的資訊，以方便另一群人閱讀、理解 (Cardoso, J.& Sheth, A. ,2006)。

儘管 HTML 標籤也可被視為是語意標籤²，但若只使用 HTML 標籤，對增進機器對語意的理解仍十分有限。例如在 HTML 的環境下，有個藝術品資料庫，其中某藝術品的館藏地標記為「松山」，機器通常無法理解所謂松山，究竟是指台灣的松山，亦或日本的松山；又或者有兩個資料庫，在作者的欄位，一個資料庫使用「artist」，另一個則是「creator」，若未經更多定義，機器也無法理解這是兩個相同的欄位名。

人類所以能克服自然語言的岐義，以理解另一個人的說話內容，主要仍是透過知識、脈絡的補充，使人們能固定彼此話語的意義，達成溝通 (Aaberge, 2013)。而在語意網技術未介入前，一台機器雖可在其自身展示很多資訊，但對另一台機器而言，大抵都像是模糊的語言，或甚至是無法理解的私有語言。在此意義上，網路過往所面臨的語意問題，和維根斯坦所遭遇的十分類似。

一個有趣的對照是，語意網中用以固定知識內涵的「知識本體」 (ontology) ——或稱「語彙」(vocabularies) ³，若轉換到哲學領域，一般稱為「本體論」。在哲學上，本體論是探究事物本質 (nature) 的學問。僅由這個簡單的詞語對照，似乎就能理解，打造語意網的目標之一，是要使機器能確定網路上諸多資訊的本質意義。而語意網如何確定並傳達資訊的意義，則有賴本文以下將介紹的語意網技術。

打造語意網的技術

自全球資訊網 (World Wide Web; WWW) 於 1990 年問世以來，網路世界已有翻天覆地的改變。2004 年起，以參與式網路 (participative web) 與社群網路 (social web) 為核心的 Web 2.0，其以使用者為中心的互動式即時體驗，形塑了今日的網路世界。而對於次世代網路的想像，Tim Berners-Lee 於 2006 年的訪談中首次提及 Web 3.0，並認為 Web 3.0 將是一個匯集了大量資料的「語意網」(Semantic Web) (Shannon, 2006)。

「語意網」這個概念，在 1994 年就已被發想，並於 1998 被正式提出 (Berners-Lee, 1998)。簡單來說，語意網即「資料的網絡」(web of data) (W3C, 2015)。「資料」是指於網路上流通的各式資訊，舉凡近期上映的電影情報、私房景點地圖、部落格文章等，皆屬資料的範疇。語意網的目標，在於以通用的標準格式，將這些資料描述成為一個個「資源」(resource)，而此標準格式即為「資源描述架構」(Resource Description Framework; RDF)。

在語意網中，任何概念均可使用 RDF 敘述 (statement) 加以描述。一個使用 RDF 資料模型 (data model) 的敘述，是由主詞 (subject)、述詞 (predicate) 與受詞 (object) 三個元素組成，又稱「三元組」(triple)。主詞與受詞為欲描述關係的兩個對象，述詞則說明兩者之間的關係。以下方這個敘述為例：

「陳澄波是一位畫家。」

在文法中，「陳澄波」、「是一位」、「畫家」即是一標準的主詞–動詞–受詞 (Subject–Verb–Object) 語序，對應到 RDF 敘述即為主詞–述詞–受詞 (Subject–Predicate–Object)。我們可將前述關係以圖 (Graph) 的形式呈現，如圖一。

圖一範例三元組的示意圖

RDF 並未規範單一的語法格式，包括 RDF/XML、Turtle 與 JSON-LD 等串列化格式 (serialization formats) 均可用來撰寫 RDF 敘述 (W3C Working Group, 2014)。以 RDF/XML 為例，我們可將例句以 <Subject> <Predicate> <Object> 的格式，描述為由三個「資源」組成的三元組。為便於唯一識別與相互連結，三元組的資源通常以國際化資源識別碼 (Internationalized Resource Identifier; IRI) 表示：

<https://www.wikidata.org/entity/Q707301> <https://schema.org/hasOccupation> <https://dbpedia.org/ontology/Painter> .

其中，<https://www.wikidata.org/entity/Q707301> 指稱陳澄波此人；<https://schema.org/hasOccupation> 用來描述一個人的職業；<https://dbpedia.org/ontology/Painter> 則指稱畫家。

而根據資源的內涵，可再將其區分為「類別」 (Classes)、「屬性」 (Properties) 與「個體」(Individuals) 三種類型，並由各領域內公認的「語彙」(vocabularies) 所定義。語彙由 RDF Schema 或更為完整的網路本體語言 (Web Ontology Language; OWL) 定義，同樣以 IRI 方式呈現，並共用相同的命名空間前綴 (namespace prefixes)，供程式快速解析。

例如在上述例子中，<https://schema.org/hasOccupation> 即為「屬性」類型的資源（描述「職業」此一屬性），並取自 <https://schema.org/> 這個命名空間前綴，擁有該命名空間的語彙名稱則（正好）是 Schema.org，此語彙專門用於描述網路上的各類資訊；<https://dbpedia.org/ontology/Painter> 則為「類別」類型的資源（描述「畫家」此一分類），而 <https://dbpedia.org/ontology/> 為結構化資料庫 DBpedia 所使用的知識本體，因其多元的資料內容，而廣為其他網路資源所使用；至於 <https://www.wikidata.org/entity/Q707301> 就屬「個體」類型的資源（「陳澄波」此人）。

以 RDF 格式建立，使用語彙描述，彼此相互關聯，且可使用語意網工具——如使用 SPARQL 查詢、或以 SHACL (Shapes Constraint Language) 進行條件驗證等——操作的資源集合，稱為「資料連結」(Linked Data)⁴。資料連結所形成的網絡，即語意網「資料的網絡」精神的技術實踐。前面提及的 RDF、OWL、SPARQL，與 SHACL 等規範，均為發展全球資訊網的主要國際組織 W3C 的推薦標準 (W3C Recommendation)，代表這些技術已經過 W3C 成員的充分討論與實證，並推薦廣泛應用於網際網路。

誰才是 Web 3.0：語意網或其他

如同 Web 2.0，Web 3.0 並無一致定義，且隨技術發展而不斷演變。例如，紐約時報科技記者 John Markoff 即認為 Web 3.0 將是語意網與人工智慧 (AI) 的結合 (Markoff, 2006)；Web 3.0 有時也會與 Web3（由以太坊共同創辦人 Gavin Wood 於 2014 年提出）一併提及，而後者的目標為建立「以區塊鏈為基礎的去中心化網路」 (Edelman, 2021)，其內涵與關注議題，均與語意網不同；有趣的是，亦有將語意網與去中心化網路均視為 Web 3.0 特徵的觀點 (Bansgopaul, 2021; Zarrin, Wen Phang, Babu Saheer, & Zarrin, 2021)。但無論是將語意網作為網際網路資料的主體，或是將語意網視為既有資料的補充 (Antoniou & Van Harmelen, 2008)，語意網相關技術將資料以結構化形式儲存與呈現，在資料交換、資訊檢索、知識管理、物聯網等領域均有助益 (Patel & Jain, 2021)。

然而，相較於問世以來即迅速發展且影響深遠的 Web 2.0，以及迅速竄紅的 Web3，被稱為 Web 3.0 且賦予甚高期待的語意網，仍不慍不火。究其原因，首先，語意網不若 Web 2.0，一般網路使用者並不直接參與 RDF 資源的生產活動。為求內容的權威性，資源的類別、屬性、關係的選定，涉及領域專業；資源的產製，亦仰賴電腦科學的相關技術，使過往語意網的應用侷限於專業社群。近年來，隨著以語意網技術為基底的維基資料⁵ (Wikidata; https://www.wikidata.org/) 提供 RDF 網頁編輯介面與視覺化搜尋服務 Query Service，以及 Google 搜尋引擎最佳化指標納入結構化資料描述 (Google, 2022) 後，語意網的技術可近性已有所改善。

再者，語意網資源的建立，需在既有的 HTML 網頁之外，再以 RDF 描述資料內容，甚至須考慮多語系內容，這均形成資料生產者與儲存空間的額外負擔；縱使網站經營者有意願產生機器可讀的資料，也更傾向直接使用網站既有的資料庫綱要 (database schema)，透過 Web API 形式，提供 JSON 格式的資料，省去 RDF 描述的工夫，這些都造成 RDF 資源成長緩慢；缺乏 RDF 資源，也令資料連結無法發揮其「萬物相連」的綜效。但近期，在自然語言處理或機器學習技術的輔助下，自動生成 RDF 資源已成為可能。例如美國的大都會藝術博物館 (The Met) 即運用機器學習辨識藏品特徵，並將結果匯入 Wikidata (Lih, 2019)；此外，保存龐大資料且具備領域知識的 GLAM——即美術館 (Galleries)、圖書館 (Libraries)、檔案館 (Archives) 及博物館 (Museums) 的聯合簡稱——為有效管理數位化的典藏品資訊，亦積極導入資料連結技術，如今歐洲數位圖書館 (Europeana)⁶、美國數位公共圖書館 (Digital Public Library of America; DPLA)⁷ 等計畫已貢獻數以百萬計的 RDF 資源。

語意網技術在藝術上的應用

如前所述，近年來語意網的實作案例倍增。透過 RDF 架構描述資料內容，連接資料與資料的關係，就如同人類的腦神經網絡，從理解資料到串連資訊進而產生知識與邏輯概念的判斷。語意網透過知識本體，使人類與機器能以結構化的方式梳理既有的知識與文化，進而發掘更多隱藏其中的價值。

語意網技術在 GLAM 已盛行多年⁸，並特別對文化遺產 (Cultural Heritage) 的數位保存起到重大貢獻。如歐洲數位圖書館 (Europeana) 計畫，整合了歐盟境內超過 3,700 個不同機構，共 5,000 萬筆以上的藝術、報紙、考古、時尚、科學、體育、書籍、音樂和影片等各類文化遺產素材，並將這些素材供所有人自由的取用及分享。與過往的作法不同，Europeana 並不是將這些資料悉數儲存在集中的伺服器內，而是透過共同的資料格式如 EDM (the Europeana Data Model)⁹ 及 Web API 進行資料的連接整合。令人訝異的是，歐盟早在 2005 年就發起這項計畫，其使用語意網技術，保存歐洲重要歷史與文化的作法，創造了語意網與整個數位文化遺產保存的雙贏局面。面對近期的烏克蘭與俄羅斯戰爭，Europeana 也正以同樣的技術，向使用者說明烏克蘭的文化歷史¹⁰，如圖二。

圖二 Europeana 連結資料成故事

圖三：Europeana 連結資料－烏克蘭文化保存聲援

除了政府官方單位的支持與參與外，近年來亦有以群眾力量累積 RDF 資料量的案例，Wikidata 是其中廣為人知的專案。Wikidata 是一個可協同編輯的知識庫，它的重要任務之一，是將所有人類的知識，以知識本體進行以多語言的結構化處理，再以 CC0 這類無著作權的方式釋出。目前 Wikidata 已收錄了近 9 千萬筆的資料條目，且仍在快速增長中¹¹。國際上的各博物館或研究單位（如 NASA）等權威性的組織單位，亦不斷聲援並支持這項工作。

圖四 Wikidata 官網歡迎任何人翻譯及貢獻

Wikidata 平台所整理的資料亦延伸出不少有趣的藝術專案，openArtBrowser¹² 是其中之一。openArtBrowser 收錄了古今 3 萬多位藝術家的作品（如下圖四），並運用 Wikidata 的條目，註記了藝術家及作品的相關後設資料 (Metadata)，包含藝術家的性別、生存年代、國籍，藝術作品的風格、材料、創作時間地點等資訊。如此做的好處，一來是使用者能便利地在 openArtBrowser 上自由研究，若有使用者想了解某個藝術家，例如藝術家 Eliseu Visconti¹³，她可以瀏覽 openArtBrowser 中關於該藝術家的頁面，就藝術家的各時期、各屬性的作品進行比較，從不同視角體認藝術家的畫作風格及想法；或者她也能宏觀地就某個時期（如下圖五的浪漫主義時期¹⁴）的作品去做更大規模的比較。二來是如此標記的作品，未來也容易在維持一定的資料品質下，與其他平台進行串接。

圖五 openArtBrowser 首頁入口網分類不同的標籤素材

圖六連結 Romanticism 時期的介紹、作品及影音

語意網的世界到了嗎？

本文在前述篇幅，介紹了語意網的緣起、技術，以及應用案例，其中也提及了部份語意網技術在過去的缺陷。事實上，語意網從提出後，就不斷面臨各種大小質疑與批評。例如牛津大學的 Luciano Floridi，曾在 2009 年對語意網作出嚴厲且系統化的抨擊。他認為 Tim Berners-Lee 想連結網路上資料的構想，儘管願景宏大，卻是個受到過度吹捧的概念。其批評主要基於幾個理由：(1) 語意網在許多概念上──例如何謂語意 (semantics)、意義 (meaning)、理解 (understanding) ──模糊不清 (2) 欠缺成熟 AI 的協助，打造語意網將耗費難以想像的資源 (3) 語意網技術雖在個別領域取得成功，但要推廣至整個網路，仍有極大落差 (4) 語意網技術嚴格要求描述物件的後設資料欄位的正確性，而一個物件又可能有相當多的描述方式，這將使創造與維護描述都變得異常艱辛 (Floridi, 2009)。

類似的理由，2014 年，一篇名為「語意網仍算一回事嗎？」的文章，更直白地指出，若要提昇資料附加價值，與其耗費大量心力打造語意網，倒不如專注於改善資料品質 (Rochkind, 2014)。該文章也引用當時的一篇評論¹⁵，該評論直截了當地斷言，「語意網」的原始概念「已宛如去年在路上被撞死的生物一般死去」(as dead as last year's roadkill)，剩下的都是一些變形。

上述的批評至今都仍有其道理，且過往對語意網的批評聲也並不僅止於此。但如本文所說，同樣不可忽視的是，自 1994 年 Tim Berners-Lee 提出概念雛型後，至今這 20 多年來，人們為了統一資訊意義已建立許多標準，採用語意網技術的資料服務更日益增加；而機器學習或自動化的成熟，亦加速了語意網的實作進程。儘管如今有關 Web 3.0 的定義，多數都與區塊鍊實作有關，但若語意網正隨時間逐一克服過去的難題，則打造一個資料可交互操作的網路，可能已不如想像遙遠。語意網或許不一定會是近在眼前的 Web 3.0，但它仍可以是指向 Web 4.0 的願景。

註解

1. 研究資料寄存所 (depositar) 為中央研究院資訊科學研究所、資訊科技創新研究中心共同建置的線上開放研究資料儲存庫 (data repository)，並獲得科技部的經費支持。所有人均可在研究資料寄存所上自由取用、存放研究資料。網址 : <https://data.depositar.io/> （2022 年 4 月 20 日檢索）。

2. W3C 認為 HTML 的標籤可傳達意義，但若細究，無疑仍是在資料的格式或結構的層次上進行，詳細可見 W3C 有關 HTML5 的參考文件：<https://dev.w3.org/html5/html-author/> （2022 年 4 月 20 日檢索）。

3. 較為正式且複雜的「語彙」一般會稱為「知識本體」，但兩者常交互使用。

4. 也譯作「鏈結資料」、「連結資料」。

5. 也譯作「維基數據」。

6. 歐洲數位圖書館，網址 : <https://pro.europeana.eu/page/linked-open-data> （2022 年4 月 20 日檢索）。

7. 美國數位公共圖書館，網址 : <https://pro.dp.la/developers/technologies>（2022 年 4 月 20 日檢索）。

8. 有關 GLAM 的介紹 : <https://zh.wikipedia.org/wiki/GLAM_(%E7%94%A2%E6%A5%AD)>（2022 年 4 月 20 日檢索）。

9. EUROPEANA DATA MODEL 的介紹參見 : <https://pro.europeana.eu/page/edm-documentation> （2022 年 4 月 20 日檢索）。

10. 參見 Europeana 聲援烏克蘭文化保存網頁 : <https://www.europeana.eu/en/statement-of-solidarity-with-ukraine>（2022 年 4 月 20 日檢索）。

11. 可見 Wikidata 首頁上方所顯示之資料：「人人都可以編輯的自由知識庫，目前已有 97,461,453 個項目。」網址 : <https://www.wikidata.org/wiki/Wikidata:Main_Page>（2022 年 4 月 21 日檢索）。

12. openArtBrowser 網頁 : <https://openartbrowser.org/en/>（2022 年 4 月 20 日檢索）。

13. 藝術家 Eliseu Visconti (Q2340277) 的作品時序及介紹網頁，可參見 : <https://openartbrowser.org/en/artist/Q2340277?tab=timeline> （2022 年 4 月 20 日檢索）。

14. Romanticism Movement openArtBrowser 網頁 : <https://openartbrowser.org/en/movement/Q37068?tab=timeline>（2022 年 4 月 20 日檢索）。

15. 評論可參見 : <https://news.ycombinator.com/item?id=8510401>（2022 年 4 月 20 日檢索）。

參考資料

Aaberge, T. (2013). The Semantic Web in a philosophical perspective. Retrieved from http://wab.uib.no/ojs/index.php/agora-alws/article/view/2661/3046
Antoniou, G., & Van Harmelen, F. (2008). A semantic Web primer (2nd ed.). Cambridge, Mass: MIT Press.
Bansgopaul, N. (2021, September 15). What Is Web 3.0 and Why Should You Care? Retrieved from https://www.newsweek.com/what-web-30-why-should-youcare-1627250
Berners-Lee, T. (1994). Plenary at WWW Geneva 94. Retrieved from https://www.w3.org/Talks/WWW94Tim/
Berners-Lee, T. (1998, September). Semantic Web Road map. Retrieved from https://www.w3.org/DesignIssues/Semantic.html
Cardoso, J., Sheth, A. (2006). The Semantic Web and Its Applications. In: Cardoso, J., Sheth, A.P. (eds) Semantic Web Services, Processes and Applications. Semantic Web and Beyond, vol 3. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-34685-4_1
Edelman, G. (2021, November 29). The Father of Web3 Wants You to Trust Less. Retrieved from https://www.wired.com/story/web3-gavin-wood-interview/
Floridi, L. (2009). Web 2.0 vs. the Semantic Web: A Philosophical Assessment. Episteme, 6(1), 25-37. doi:10.3366/E174236000800052X
Jahanforouz, S. (2019, February). Wittgenstein's concept of language. http://dx.doi.org/10.13140/RG.2.2.35572.40325
Lih, A. (2019, March 4). Combining AI and Human Judgment to Build Knowledge about Art on a Global Scale. Retrieved from https://www.metmuseum.org/blogs/now-at-the-met/2019/wikipedia-art-and-ai
Markoff, J. (2006, November 12). Entrepreneurs See a Web Guided by Common Sense. Retrieved from https://www.nytimes.com/2006/11/12/business/12web.html
Patel, A., & Jain, S. (2021). Present and future of semantic web technologies: a research statement. International Journal of Computers and Applications, 43(5), 413-422. doi:10.1080/1206212X.2019.1570666
Rochkind, J. (2014, October 28). Is the Semantic Web Still a Thing?. Bibliographic Wilderness. Accessed April 20, 2022. https://bibwild.wordpress.com/2014/10/28/is-the-semantic-web-still-a-thing/.
Shannon, V. (2006, May 23). Next, a “more revolutionary” Web. Retrieved from https://web.archive.org/web/20060524013307/http://www.iht.com/articles/2006/05/23/business/web.php
W3C. (2015). Semantic Web. Retrieved from https://www.w3.org/standards/semanticweb/
W3C Working Group. (2014, June 24). RDF 1.1 Primer. Retrieved April 18, 2022, from https://www.w3.org/TR/rdf11-primer/
Wittgenstein, L., & Anscombe, G. E. M. (1973). Philosophical Investigations (3rd Edition) (3rd ed.). Pearson.
Zarrin, J., Wen Phang, H., Babu Saheer, L., & Zarrin, B. (2021). Blockchain for decentralization of internet: prospects, trends, and challenges. Cluster Computing, 24(4), 2841-2866. doi:10.1007/s10586-021-03301-8
Google（2022年4月13日）。瞭解結構化資料的運作方式。上網日期：2022年4月18日，檢自：https://developers.google.com/search/docs/advanced/structured-data/intro-structured-dat

當資料管理作為 NGO 提倡企業綠色轉型的推手——專訪綠色公民行動聯盟

研究資料寄存所編輯群 — Fri, 28 Oct 2022 06:23:30 +0000

當資料管理作為 NGO 提倡企業綠色轉型的推手——專訪綠色公民行動聯盟研究資料寄存所編輯群週五, 10/28/2022 - 14:23

文字／劉宜庭｜編輯／何明諠、王家薰

「一般民眾想關心環境，但他們沒有資料，看不到一家企業的排放污染、環保裁罰紀錄。我們讓民眾透過平台查閱環境資料，當資訊不斷地被大眾看見，企業才無法心存僥倖，才會有所改善。」

環保團體綠色公民行動聯盟（簡稱綠盟）長期關注能源、工業污染等環境議題，2016 年啟動「透明足跡」計畫，透過提倡環境資料開放，以及蒐集企業公開的環境違規裁罰紀錄、空污（固定污染源空氣污染物）與水污染（重大點源放流水）自動連續監測資料，建立環境污染資料庫，以分析環境資料、追蹤企業污染源，監督政府落實環境保護政策，推動產業永續發展議題與修法。

本文介紹綠盟研究團隊如何善用政府開放資料，建置「透明足跡」環境資料庫，並在透明足跡資料庫的基礎上，推出「掃了再買」行動應用程式、「 ESG 檢測儀」企業環境永續資料平台，透過向大眾揭露企業環境表現的方式，捲動公民社會、政府、企業共同促進台灣產業的永續轉型。

發展透明足跡資料庫及網站平台，推動環境資料開放

綠盟在 2016 年發起「透明足跡」群眾募資計畫，隔年正式開放網站供民眾查詢環保裁罰、企業煙道與水污染自動連續監測資料。自 2019 年起，綠盟亦開始根據透明足跡環境資料庫，彙整年度環境違規資料，評選「年度環境金害獎」，公布重大違規的企業名單。

綠盟 2017年正式開放「透明足跡」網站並維運至今。（擷自透明足跡官網）

為了評選金害獎，透明足跡研究團隊統整工廠放流水超標紀錄、採用高污染製程的工廠等政府開放資料，並在資料篩選過程中，觀察到有間電鍍工廠位於農地上，已導致民眾的食品安全暴露在高風險中；為了確認台灣有多少類似的「農地工廠」，團隊透過圖資套疊，交叉比對出嚴重環境違規、中高污染生產製程的農地工廠，並將違反政府管制的農地工廠名單公之於眾，以督促企業盡快將這些違規工廠搬離農地。

團隊成員柯乾庸指出，以串接違規農地工廠的政府開放資料為例，環保署提供的製程資料多為PDF 檔，研究團隊需根據工廠登記，人工查詢特定製程的環境污染特性；且環保裁罰資料的欄位是以工廠為主，如要比對工廠所對應的公司或企業名稱，得另外串接其他資料，例如財政部的統一編號。同時，研究團隊還需隨時因應環保裁罰資料的欄位改版，持續調整爬蟲機器人的欄位定義，更改資料維護流程。

政府的環境開放資料欄位和資料品質，經常缺乏關鍵資料或不符合民眾的使用需求。以環保裁罰為例，公部門過去的公開資料，曾採用內部使用的工廠管制編號，導致民眾無法由編號得知被裁罰的工廠、公司名稱；公部門也曾拒絕公開裁罰事由，「中央主管機關和地方環保局互相推託，有千百種理由不公開，光是裁罰事由這項資料，我們就花了一年半左右，從行政立法協調會，到環保署中區環境督察大隊、地方環保局，要不斷溝通，各個擊破」，綠盟副秘書長曾虹文補充道。

將現有的政府開放資料，轉換成讓民眾更容易閱讀、查找、理解的環境資料，是透明足跡研究團隊持續努力的方向。對綠盟而言，資料是建立政府、企業與大眾溝通的基礎。但由於政府部門的開放資料有各自的管理方法，綠盟往往需因應各資料集遇到的狀況，個案處理，耗費大量心力向公部門「磨資料」，方能維護透明足跡資料庫及網站的良好運作。

掃了再買，讓資料把不同的利害關係人拉在一起

2019 年，綠盟研究團隊在透明足跡資料庫的基礎上，推出「掃了再買」行動應用程式。曾虹文強調「環境資料只是工具或手段，真正要做的是增加公眾參與，捲動更多公民參與產業的永續轉型，讓台灣從高耗能、高污染的褐色經濟產業，轉向綠色經濟」。為此，將民生商品資訊與環保裁罰資料串接，「對一般民眾是最有感的」，當裁罰紀錄被更多人看見，違規企業遭受輿論壓力，就可能讓企業有所改變，強化政府的污染管制。

綠盟 2019年推出「掃了再買」應用程式並維運至今。（擷自透明足跡官網）

研究團隊成員 ddio 表示，綠盟幾乎每年都會在透明足跡資料庫的基礎上，開展一個新專案，擴充新欄位、圖資或地理資訊的處理，「每個專案都會接新的資料進來，不同的資料集有不同的性質，收集與維護成本不同，背後需要的技術協助也很不一樣」。在動態資料管理 (managing active data) 方面，除了需要確保透明足跡網站持續存取環保署政府公開資訊資料集，也會根據專案的需求，介接來自經濟部、財政部、金管會的資料集；當需要介接的資料是政府沒有公開或機器不可讀的資訊時，研究團隊亦會採取手動建檔資料集。

「掃了再買」資料處理流程圖（綠盟提供）

以「掃了再買」的民生商品資料建檔過程為例，柯乾庸指出，最開始的六千多筆商品資料，都由志工到賣場有組織地收集零食、飲料等日常用品的商品條碼與製造廠商資訊，疫情期間也有消費者主動協助建檔，維持每個月幾百筆的資料更新進度。有別於多數研究專案僅利用既有資源推進研究進程與研究資料更新，透明足跡計畫結合社群的力量，推動公民參與資料蒐集、資料選擇、資料清理的過程，是難得的資料管理案例。

柯乾庸坦言，「掃了再買」也遇到許多意料之外的困難，其一是商品推陳出新的頻率高，每季都要重新檢視產品的條碼存續，相當耗費人力；其二是透明足跡資料庫不涵蓋進口商品的環保裁罰資料，但台灣的進口商品很多，當消費者使用「掃了再買」卻無法取得商品資訊時，容易產生心理落差，導致使用者經驗不佳。此外，「掃了再買」無法追蹤使用者的資料利用情況，對資料管理的優化也是一大考驗。綠盟亦在設法提升使用者的人數，自 2019 推出至今，「掃了再買」的下載次數雖持續增加，但仍未達原先設定的十萬下載次數目標。

成本亦是計畫能否持續或擴大運作的主要考量之一。透明足跡計畫的資料收集與維護成本，至今已近一百萬台幣，包括開發「掃了再買」行動應用程式、將行動應用程式介接透明足跡網站的資料庫、以及更新自動連續監測資料、網站資料表欄位更新等。此外，虛擬主機、雲端儲存空間、網路流量、大數據分析工具等，每年也需要固定支出十多萬台幣的維護費用。

公民力量推動產業永續經營，ESG檢測儀首創開源先例

2021 年，綠盟研究團隊以透明足跡資料庫為核心，擴大串接企業的環境資料，發展「開放集團」開源資料庫，推出台灣第一個「 ESG 檢測儀」（註：ESG分別是環境保護（E，Environmental）、社會責任（S，Social）以及公司治理（G，governance）的縮寫）。 2022 年， ESG 檢測儀暨「透明足跡3.0募資計畫」正式啟動，該計畫透過蒐集逾 60 項 ESG 指標，包括企業總用電量、總取水量、碳密集度、環境違規裁罰總件數與總金額、職災事故總件數等，並針對各項指標排序出標竿企業，讓公民社會能更有效地監督企業永續轉型的發展。

綠盟 2022年正式推出「 ESG 檢測儀」企業環境永續表現資料平台並發起「透明足跡3.0」募資計畫。（擷自 ESG 檢測儀官網）

研究團隊成員程心指出，企業 ESG 指標的內容，主要來源是 CSR （企業社會責任）報告，由於 CSR 報告多為機器不可讀的 PDF 格式，須先把原始資料人工轉換成機器可讀的型式，方能進一步分析及使用。在這個部分，綠盟仰賴了大量與公民社會的共同協作來進行，「我們需要設計流程，讓志工能方便的把各項資料填到 Google Sheets 」。

ESG 檢測儀資料處理流程（綠盟提供）

以溫室氣體排放量的數據登錄為例，碳排量分為直接排放、間接排放、碳密集度等量化方式，但並非所有企業的CSR報告都使用同樣的量化單位。最初設想的流程，是志工在閱讀讀CSR 報告PDF 檔後，人工篩選碳排量數據，再各自轉換為統一單位，以供機器判讀數值資料。但經過磨合後，為了避免碳排量單位換算的誤植，改良成為由志工判讀 CSR 報告PDF 檔、人工篩選出碳排量數據、直接輸入報告中使用的原始數值與單位，最後再由研究團隊統一進行數值換算與資料品質的確認。

綠盟研究團隊透過與公民社會協作，讓民眾能直接參與從資料蒐集、資料選擇到資料清理的資料管理過程。同時，這些由公民協作而成的環境資料，也開放給公民社會下載、再利用。ESG 檢測儀的資料集，綠盟採開放授權的方式，透過「開放集團」專案以 csv 檔放置在 GitHub 平台，提供民眾直接讀取與下載。 ddio 表示，「開發 ESG 檢測儀的過程中，我們盡量把每個階段的資料釋出，變成開發流程的一部分； ESG 檢測儀可視為透明足跡資料服務藍圖的測試，去確認哪些資料、程式可以開放，哪些資料流程可以公開」，去檢視透明足跡資料庫要提供哪些數位服務，才能滿足綠盟內部及其他NGO（非政府組織）研究者的需求，並能長期協助民眾利用這些環境數據進行倡議。

ESG 檢測儀是台灣第一個公開且完全免費的 ESG 資料庫，在透明足跡既有的企業環境違規、污染物排放監測資料之上，再加入溫室氣體排放量等減碳指標，也整理企業財報、子母集團關係網絡，以釐清資本的流向，避免綠色投資進入高污染的企業集團，同時確保高污染產業無法取得政府補貼或稅收減免。

結語：資料管理納入公民協作，促進政府環境開放資料品質

民眾透過「開放集團」專案，能夠直接檢視透明足跡資料庫的資料管理細節，包括相關資料集的原始資料來源，資料格式與資料欄位的說明，資料如何取得、蒐集和處理的過程。值得注意的是，在透明足跡資料庫的資料管理過程中，民眾可以直接參與資料蒐集、資料選擇、資料清理等環節，也可以直接下載與再利用這些由各方公民協作而成的環境資料。綠盟透過與公民社會的大量協作，不僅促進環境資料的產製與使用，也能獲得更多的社會關注與支持，並進一步敦促政府改善環境開放資料的品質。

「開放資料不是為了讓民眾拿著資料來罵政府，是為了讓政府把管治責任分攤在所有民眾身上，讓供應鏈、居民、不特定大眾、民間團體都能發揮監督的力量。」曾虹文指出，政府開放資料一直存在的問題是，政府開放的資料並不是民眾及公民團體可用的資料，公務部門用管考機制執行開放資料相關作業，提供的大多是機器不可讀、難以橫向串接的資料，例如會議記錄、政策文宣的 PDF 檔和 Word 檔，且多數執行政府開放資料的公務員也缺乏「開放資料」的概念，經常忽視資料品質的重要性，導致資料無法有效地再利用。

透明足跡計畫自 2016 年發展至今，從透明足跡到掃了再買，從掃了再買到 ESG 檢測儀、都是建立在開放資料的基礎上。曾虹文強調，開放資料可以捲動更多參與者協助產業轉型與永續經營，企業的環境永續轉型需要「正向競逐」，她也期許公務員對開放資料更有概念，能夠改善開放資料的品質，讓民眾能夠更方便地獲取更詳盡的環境資料，協助台灣產業更快實現環境永續轉型。

綠盟副秘書長曾虹文（左）、透明足跡研究團隊成員柯乾庸（右）。（圖：劉宜庭）

資料為體，系統為用

莊庭瑞 — Mon, 04 Apr 2022 10:42:10 +0000

資料為體，系統為用莊庭瑞週一, 04/04/2022 - 18:42

Baby Penguin at Edinburgh Zoo. Source: Wikimedia Commons (CC BY-SA 3.0).

本文亦刊於台灣《科學人》月刊 2022 年 4 月號。以下的版本增添、更動部份文字並附上參考書目。

「機器學習」已是常見的用語，多數人都不陌生。簡單地說，機器學習使用自動化的方法分析給定的資料，生成高效率的運算模型，用來判別之後同類型的資料。用來訓練模型的資料越多，得到的模型也就越精細。當然，訓練資料的特質，影響了生成模型的特性。因為資料缺失導致模型偏差的情形也時有所見，卻很難避免。以下舉個例子。

假設手邊有大量貓和狗的照片，其中出現的狗都是黑狗兄，貓則有花貓、白貓、但就是沒有黑貓。只用這批照片訓練出來的貓狗辨別模型，看到毛茸茸一團可愛的黑麻糬，十有八九會認為那是狗 [1]。

上述例子當個笑話，應該無傷大雅。這類失誤若是出現在人臉辨識系統，當事人可就要翻臉了。2018 年由博蘭威尼 (Joy Buolamwini) 和葛布若 (Timnit Gebru) 兩位非裔女性計算科學家合著的論文指出，市面上三款分別由微軟、IBM 以及中國某廠商製作的人臉辨識系統，遇到黑皮膚的人頭影像，常錯把女當男、或是男當女，有些系統的錯誤率可高達 30% [2]。但是這三家系統卻都能精準辨別白皮膚頭像的性別。其中緣故可以想見，應該是用來訓練的照片中白人遠多於黑人，甚至所收錄的黑人頭像有性別標示錯誤的情形。

值得一提的是這兩位研究人員的巧思：用來測試三家系統的資料，取自冰島、瑞典、芬蘭、南非、塞內加爾、盧安達的國會議員頭像和性別。這些都是公開資訊。六國共 1270 位代表組成的測試資料集，在膚色與性別的組成，比當時市面上的測試資料集，均衡許多。

機器學習所用到的訓練資料和測試資料，必須符合之後會遇到的資料，否則再多資料訓練出來的模型，還是不符需求。這是訓練資料的涵蓋性議題。另一方面，訓練資料因其取材來源，也會帶進成見，這在自然語言處理尤其可能。在資訊爆炸的網路時代，語料庫來自四處爬梳的網頁，難免包括不雅詞語和偏見，這需要費心過濾，否則訓練出來的模型也會說髒話、帶有歧視。有成見的網頁資料訓練出有成見的模型，這模型若用來產生更多帶成見的文句、散佈在網路，就成為惡性循環。

以「資料為中心的人工智慧」(Data-Centric AI) 的呼聲因此而起，研究人員也提出各種實務作法，用來標明資料集的組成與特質，希望有助於彰顯其所訓練出來模型的特性 [3]。有研究者認為，資料集也需要「營養標示」(Nutrition Facts Label)，摘要說明其成份組成 [4]；或是借用電子產業對零組件生產使用的作法，資料集也要附上「規格書」(Datasheet)，述明資料集的蒐集過程、適用環境與使用限制等 [5]。這些描述已超越常用的「都柏林核心集」(Dublin Core) 或是「資料目錄語彙」(DCAT) 這類編目格式的要求，而是關於資料集本身的詳細生產履歷。這類型的「後設資料」(metadata) 需要由資料集的產出者詳細紀錄編寫，無法（全）自動產生，資料集的使用者更是無法代勞。

針對自然語言處理，美國西雅圖華盛頓大學的班德 (Emily M. Bender) 教授等人，提出「資料陳述」(Data Statements) 的撰寫指引，用來描述語文資料集的基本資訊，包括蒐集緣由與材料來源，希望有助於減緩資料集潛藏（不可避免的）內在偏誤所帶來的傷害 [6]。日常語句承載了社會成見，例如在大眾媒體常看到的「亞裔美國孩子會念書」、「非裔美國人會運動」。有些成見容易察覺，有些則相當細微，大眾罕有感覺。

例如，「兩位非裔女性計算科學家合著的論文指出」這句子真的有必要把「非裔」跟「女性」放在「計算科學家」前頭做為修飾嗎？為何需要指出這兩位研究人員的族裔與性別？是認為計算科學家少有非裔女性，所以需要指出並強調嗎？這是否就是成見？

去年初，班德與葛布若領銜發表論文〈隨機學語鸚鵡的危險：語言模型會太大了嗎？🦜〉(On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜) [7]。對於使用（品質堪慮的）超巨量的語料庫來訓練語言模型，提出許多批評與建議。其一，這些模型固化了原有語料中的成見，也可能因為語料的不當過濾，模型難以符合弱勢族群的需求；其二，訓練這些超巨量模型需要大量耗能，產生可觀的碳足跡。

原本任職 Google 的葛布若，為了這篇論文初稿槓上公司而遭解職（一說自行辭職），同在 Google 任職的其他作者則埋名以對。一年後風波平息，但議論持續。

網路普及帶來資料大爆發，搭配低廉的運算及儲存成本，為人工智慧系統創造突破性的進展，當這些系統反過來影響眾人對世界的認知時，我們也該對訓練人工智慧系統的資料組成與限制，有更多的思考。

（是的，你沒看錯，那篇論文的標題的確以鸚鵡的表情符號 🦜 做為結尾。）

[1] 這個例子衍生自：Lakkaraju et al. (2016), Identifying Unknown Unknowns in the Open World: Representations and Policies for Guided Exploration. <https://arxiv.org/abs/1610.09064>

[2] Buolamwini and Gebru (2018), Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. <https://proceedings.mlr.press/v81/buolamwini18a.html>

[3] 可參見 2021 年 Data-Centric AI Workshop <https://datacentricai.org/neurips21/>。

[4] Stoyanovich and Howe (2019), Nutritional Labels for Data and Models. <http://sites.computer.org/debull/A19sept/p13.pdf>

[5] Gebru et al. (2021), Datasheets for Datasets. <https://arxiv.org/abs/1803.09010>

[6] Bender et al. (2021), A Guide for Writing Data Statements for Natural Language Processing (Version 2). <https://techpolicylab.uw.edu/data-statements/>

[7] Bender et al. (2021), On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜. <https://dl.acm.org/doi/10.1145/3442188.3445922>

讓資料價值顯現的「台灣生物多樣性網絡」——專訪柯智仁、張慧玲研究員

何明諠 — Wed, 16 Mar 2022 05:51:44 +0000

讓資料價值顯現的「台灣生物多樣性網絡」——專訪柯智仁、張慧玲研究員何明諠三, 03/16/2022 - 13:51

文／何明諠

---

台灣生物多樣性網絡（Taiwan Biodiversity Network，TBN）是致力於彙整生態調查的開放資料，並提供物種分布查詢的線上平台。

TBN 是由農委會特有生物研究保育中心負責維運。特生中心在 2007 年時，依循「生物多樣性公約」的精神（台灣並非締約國），建置了 TBN。TBN 平台上的資料，主要有兩個來源，其一是特生中心內研究員的調查紀錄，其二則是公民科學計畫的成果，目前平台上仍有近 20 個公民科學計畫資料。

營運至今（2022 年 2 月），TBN 的平台上已累積超過 1000 個不同的資料集，總計超過 1,200 萬筆生態資料；而在蒐集資料外，TBN 也透過不同方式，強化其平台上資料的流通與應用。例如目前在平台上，所有的生態資料都可透過地圖網格的視覺化方式顯示其分布狀態；TBN 也在 2021 年參與成立臺灣生物多樣性資訊聯盟（Taiwan Biodiversity Information Alliance，TBIA），擴大平台上資訊的流通。

中央研究院資訊所在 2021 年中就「研究資料管理」的相關議題訪問了研究員柯智仁、張慧玲所帶領的 TBN 團隊。在訪談中，TBN 詳細說明了生態資料在管理、使用上的問題，以及對應的解決方式。

圖 1：TBN 透過地圖網格呈現物種分佈

克服資料不夠多的首要步驟：調整營運方向

「資料流通跟應用是我們目前最優先的項目，其次是推廣公民科學，最後才是資料品質管理。」柯智仁說，這是 TBN 在 2017 年後，逐步調整資料管理重點，所得出的排序。在此之前的 TBN，是以推廣公民科學為首要營運重點，會親身在第一線推廣公民科學，蒐集相關資料。

在被問及為何要重新運作方向時，柯智仁表示，主要是希望 TBN 的資金提供者（例如國發會）能看到資料的利用價值。儘管目前平台上有上千萬筆資料，然而在 2017 年以前，TBN 資料的總筆數不到50萬筆，資料筆數不多，也欠缺許多物種的資料（例如植物），整體瀏覽及使用量都有待改進。「如果今天是以研究人員為主，資料庫使用量很少似乎還說得過去；但如是以大眾為目標，使用量依然很低，那明顯就是方向出了問題。」柯智仁說。

在這樣的想法下，TBN 在 2017 年後，開始重新配置組織內的資源，將公民科學的推廣與相關資料的蒐集，交由其他單位的計畫主持人處理，TBN 則與計畫主持人接洽，不再親上前線，而更專注於特生中心內外資料的彙整、流通、與應用。

圖 2： TBN 的資料成長狀況（source: 柯智仁－讓資料的價值被看見能否鼓勵資料的管理與開放？)

簡單就好：以上傳者為核心的資料匯集模式

調整平台的運作方向，只是加速展現資料利用價值的第一步， TBN 在彙整資料時，依然遭遇許多問題。例如兩位受訪的研究員皆表示，如何讓研究員有「能力」共享資料，是其中最棘手的問題之一。柯智仁說：「很多研究者其實有意願共享資料，但他們給的資料，往往只有自己能懂。」；張慧玲也表示：「過往常見的情形是，有些專家願意交資料，但卻發現還要花很多研究時間來整理資料，這就造成分享的困難。」

為解決前述難題，TBN 嘗試了不少方法。張慧玲說：「有的資料庫推行只填後設資料（Metadata）的方式，希望能節省研究者整理原始資料的心力，卻導致研究者花更多時間填後設資料，還得了解那些詞條。」 TBN 也曾想由廣納生態分類選項標準著手，希望系統能將各種研究者使用的分類觀點納入，提高使用者的使用動機，但因此可能產生非常長或多階層的選單，反而不利填寫。

嘗試了許多方法後，TBN 最終以相對簡單的方式，處理資料彙整的問題。柯智仁指出，TBN 會與研究者溝通，理解其基本的研究需求，在系統端改善；並在此基礎上，採用一維表格，僅要求研究者上傳資料利用所需的最少資料，這是 TBN 目前認為的最佳作法。「我會盡可能請大家不要把資料拆成不同表單，可以的話，都在一張表單做管理，如此應可以解決很多生物調查資料的混亂。」柯智仁說。

簡化輸入流程、以成果導向來設計資料需求，藉此鼓勵研究者將自己的資料發布成開放資料，是 TBN 近年來推動研究資料開放的主要作法。

「如何取捨」是所有難題的核心

在訪談過程中，我們曾試著追問， TBN 為何不要求特生中心制定資料政策，規定研究者一定要繳交資料。「因為我希望讓資料完整的進來。」柯智仁坦言，「我們聽過太多對系統無盡的抱怨，規定應繳資料的狀況，可能會因系統嚴格的設計，造成大家只繳篩選後最低限的應繳資料。但我們其實不知道一個計畫到底有多少筆資料。」

欠缺強制規定有利有弊，TBN 希望藉此取得更完整的資料，但相對也須付出更多心力，打造符合研究者需求，讓研究者願意上傳資料的系統。所以在資源有限的前提下，資源如何配置，滿足誰的需求，就成了首要面對的問題；而迅速增加的資料量，也持續拉高儲存與維運系統的成本，穩定而長期的營運資源，也是亟需解決的事。

最後，不同類型研究者的需求，也影響到 TBN 希望彙整動、植物資料在同一平台的理想。負責植物資料彙整的張慧玲指出，植物分類群繁多，詳細完整的名錄與標本紀錄是研究人員的首要需求，但這和 TBN 目前以簡單規劃為主的輸入方式不同。「其實只是切入點不同，植物資料至今仍無法由系統自動化同步到 TBN。」張慧玲說，「雖然優先順序和客群不同，但最終我們有把這些資料保留下來，先以手動方式整合至TBN，這和早期動、植物資料完全分開的狀況，已改善很多了。」

圖 3：柯智仁研究員

圖 4：張慧玲研究員

俄烏戰爭：國際科學社群的回應（3/1-4/30）

hms — Fri, 11 Mar 2022 03:22:13 +0000

俄烏戰爭：國際科學社群的回應（3/1-4/30） hms 週五, 03/11/2022 - 11:22

研究資料亂到不行？你需要的是「資料管理方案」——淺談什麼是「開放科學」

hms — Mon, 21 Feb 2022 04:19:23 +0000

研究資料亂到不行？你需要的是「資料管理方案」——淺談什麼是「開放科學」 hms 週一, 02/21/2022 - 12:19

Research Data Management Hub

[depositar] 以技術克服科研運算可再現性的挑戰貫徹開放科學的理念

2023 國際資料週「資料節慶」一窺研究資料管理發展

[活動報名] 2023 研究資料管理工作坊

讓大眾取用政府資助的研究成果美國與臺灣新近的發展

過去還是未來？淺談萬物相連的語意網

語意網的哲學視角

打造語意網的技術

誰才是 Web 3.0：語意網或其他

語意網技術在藝術上的應用

語意網的世界到了嗎？

註解

參考資料

當資料管理作為 NGO 提倡企業綠色轉型的推手——專訪綠色公民行動聯盟

發展透明足跡資料庫及網站平台，推動環境資料開放

掃了再買，讓資料把不同的利害關係人拉在一起

公民力量推動產業永續經營，ESG檢測儀首創開源先例

結語：資料管理納入公民協作，促進政府環境開放資料品質

Tags

資料為體，系統為用

Tags

讓資料價值顯現的「台灣生物多樣性網絡」——專訪柯智仁、張慧玲研究員

克服資料不夠多的首要步驟：調整營運方向

簡單就好：以上傳者為核心的資料匯集模式

「如何取捨」是所有難題的核心

俄烏戰爭：國際科學社群的回應（3/1-4/30）

研究資料亂到不行？你需要的是「資料管理方案」——淺談什麼是「開放科學」

Research Data Management Hub

[depositar] 以技術克服科研運算可再現性的挑戰 貫徹開放科學的理念

2023 國際資料週「資料節慶」 一窺研究資料管理發展

[活動報名] 2023 研究資料管理工作坊

﻿讓大眾取用政府資助的研究成果 美國與臺灣新近的發展

過去還是未來？淺談萬物相連的語意網

語意網的哲學視角

打造語意網的技術

誰才是 Web 3.0：語意網或其他

語意網技術在藝術上的應用

語意網的世界到了嗎？

註解

參考資料

當資料管理作為 NGO 提倡企業綠色轉型的推手——專訪綠色公民行動聯盟

發展透明足跡資料庫及網站平台，推動環境資料開放

掃了再買，讓資料把不同的利害關係人拉在一起

公民力量推動產業永續經營，ESG檢測儀首創開源先例

結語：資料管理納入公民協作，促進政府環境開放資料品質

Tags

資料為體，系統為用

Tags

讓資料價值顯現的「台灣生物多樣性網絡」——專訪柯智仁、張慧玲研究員

克服資料不夠多的首要步驟：調整營運方向

簡單就好：以上傳者為核心的資料匯集模式

「如何取捨」是所有難題的核心

俄烏戰爭：國際科學社群的回應（3/1-4/30）

研究資料亂到不行？你需要的是「資料管理方案」——淺談什麼是「開放科學」

[depositar] 以技術克服科研運算可再現性的挑戰貫徹開放科學的理念

2023 國際資料週「資料節慶」一窺研究資料管理發展

讓大眾取用政府資助的研究成果美國與臺灣新近的發展