認識網路資料的持續識別碼

*本文亦刊載於 2022-10-15 科技報導

文/李承錱(中央研究院資訊科學研究所,研究資料寄存所技術經理
 

現代人查詢資料離不開網路,覓得網路資料並引述資料來源時,往往一個網址(URL)便可代表千言萬語。但是,根據美國國會圖書館(Library of Congress)建立的部落格 The Signal 所整理的資料,網頁的平均壽命(從被建立到失效)約為 44∼100 天不等,包括網站改版、營運者決定關閉網站等,都是網址失效的可能原因。因此,單純使用網頁網址作為網路資源的參照,對資料的長期保存並不可靠。為了讓網路使用者能準確存取網路上的資源,持續識別碼(persistent identifier, PID)的服務因應而生。

什麼是「持續識別碼」?

PID 是一種用以參照各類事物的長期性編碼,通常用於網路上的物件。顧名思義,PID 包含「持續」與「識別碼」兩個核心要素。「持續」代表PID服務提供者維繫服務營運的承諾。PID 服務提供者的長期營運承諾,確保 PID 能持續指向某個網路物件的最新網址,即使該物件因故被移動或刪除,也會清楚交代該物件的最新去向,而非僅顯示 404 Not Found(找不到)訊息。例如數位物件識別碼(Digital Object Identifier, DOI)就建議提供識別碼的儲存庫,應建立墓碑頁面(Tombstone Pages),並於頁面載明物件失效的原因。也由於 PID 的持續性,是建立於使用者對營運者的信任之上,因此 PID 服務提供者必須妥善管理該服務,並考量服務停止時的轉移問題

「識別碼」則是 PID 的外顯特徵:可識別該物件的獨特編號。PID 一般由英文字母與數字構成,各類 PID 雖有不同的編碼規則,但每個 PID 編號都獨一無二,不重複發放。同時,由於網頁瀏覽器是現代網路的入口,大多數 PID 服務都提供解析功能,含有 PID 編號的網 址,並導向 PID 指涉物件所在的最新網址。所以當物件被刪除時,也會將對應的 PID 註記為失效編號。以 DOI 為例,「doi:10.1000/182」代表 DOI Handbook 這份線上文件,我們便可以使用 https://doi.org/10.1000/182 這個含 PID 編號的網址,透過 DOI 提供的解析服務,取得存放在 https://www.doi.org/hb.html 的這份文件。

持續識別碼的種類

依照發放的對象分類,目前較為流通的 PID 如下:

以「人物、組織」為對象的 PID

  • 國際標準名稱識別碼(International Standard Name Identifier, ISNI):是一項 ISO 標準(ISO 27729),用於唯一辨識參與創作活動(書籍、電視節目等)的個人或組織(唱片公司、出版社等)。ISNI 由註冊於英國的 ISNI International Agency Ltd 這個機構負責管理,機構成員涵括多國的法定送存(legal deposit)圖書館與高等教育機構。截至今(2022)年 5 月,ISNI 已收錄超過 1300 萬個公開個人檔案,以及 160 萬個公開組織檔案。
     
  • 開放型研究者與貢獻者識別碼(Open Researcher and Contributor ID, ORCID):ORCID 為研究者提供免費、唯一且持久的身份識別,由非營利組織 ORCID, Inc. 維護與推廣。自 2012 年起開始發放,至今年 5 月止,已有超過 1400 萬個 ORCID iD 被發放。在技術層面,ORCID 以 ISNI 的規格設計,並為後者的一部分。
     
  • 全球研究識別碼資料庫(Global Research Identifier Database, GRID):GRID 是有關研究組織的公開名錄資料庫,由英國 Digital Science 於 2005 年首次公開,2006 年改以公眾領域貢獻宣告(CC0)釋出資料庫。去(2021)年 9 月的最終版本,包含超過 10 萬個世界各國研究組織的名稱、地址、網址、電子信箱等基本資訊。除了以網頁與應用程式介面(API)存取,GRID 同時提供 JSON 與 CSV 格式的封存檔案,以及資料連結(linked data)介面。GRID 計畫結束後,由 ROR 接續工作。
     
  • 研究機構登錄(Research Organization Registry, ROR):ROR 由研究社群主導,目標是提供開放的研究組織識別碼與相關後設資料(metadata)。ROR 計畫繼承自 GRID,於 2019 年啟動,以後者的資料為基礎,並由加州數位圖書館、Crossref 與 DataCite 共同發展與經營。一個 ROR ID 也可包含其在 GRID、ISNI、Crossref Funder ID 和 Wikidata QID 等其他 PID 服務的對應編號,得以相互操作。ROR 也提供網頁介面、API 與 JSON 格式的封存檔案,今年 3 月的最新版本收錄超過 10 萬個研究組織資訊。

以「事物」為對象的 PID

  • Handle System:Handle 是一非商業性的識別碼解析系統,1994 年由美國國家創新研究公司(Corporation for National Research Initiatives, CNRI)開發並維護至 2015 年,現由 DONA 基金會(DONA Foundation)負責管理。Handle 不僅是眾多 PID(如以下介紹的 DOI、RAiD、IGSN)的技術核心,也經營名為 Handle.Net 的識別碼登錄與解析服務,與發行以 Java 撰寫的軟體套件,可用於機構內部發行識別碼。 Handle System 的技術細節,定義於網際網路工程任務編組(IETF)發行的 RFC 3650 至 3652 之中。
     
  • DOI:是學術領域最廣為人知的 PID 系統之一,為物件(如學術文章、書籍、資料等)提供數位化的識別碼,由國際數位物件識別號基金會(International DOI Foundation)於 1998 年發起。DOI 實作 Handle System 的識別碼功能,它的後設資料「資料字典」(data dictionary)建基於用以描述數位交易的indecs(interoperability of data in e-commerce systems)後設資料架構,並在歐盟的前身──歐洲共同體(European Community)的支持下進行開發。DOI 可描述物件的出版資訊、摘要,甚至可以包含物件的完整內容。根據資料的繁簡程度(granularity),DOI 識別碼也可被切割為多個子集合(subsets)。DOI 目前由 11 個註冊代理機構(Registration Agencies)受理識別碼申請(通常為付費服務),並已發放逾 2 億 7000 萬個識別碼。DOI 同時也是一項 ISO 標準(ISO 26324)。
     
  • 國際通用樣本號(International Generic Sample Number, IGSN):主要用於唯一辨識研究時搜集的實體樣本(physical samples),最早使用於地球科學,後擴及所有研究領域。IGSN 的識別碼同樣是基於 Handle System,名為 IGSN ID;維護的後設資料綱要 IGSN descriptive metadata schema 著重描寫樣本的材質與所在空間等資訊。目前全球有 10 個 IGSN 分發機構,如法國國家科學研究中心(Centre national de la recherche scientifique, CNRS)與澳洲研究資料共享中心(Australian Research Data Commons, ARDC)等。為因應持續增長的需求,IGSN 組織(IGSN Organization)與 DataCite 建立合作關係,並於今年 9 月起改由 DataCite 發放 DOI 形式的 IGSN ID。
     
  • 研究活動識別碼(Research Activity Identifier, RAiD):是為描述研究計畫而設計的識別碼,涵蓋研究計畫的人員、儀器、機構、研究成果等描述。RAiD 由 ARDC 於去年推出,以 Handle System 實作識別碼功能,目前主要用於 ARDC 的研究計畫管理系統,同時也接受外部申請。RAiD 的特色,在於彙整 ORCID、DOI、ROR、IGSN 等與研究計畫相關的識別碼系統,提供研究計畫的關係者(研究團隊、贊助者、研究機構等)獲取關於計畫重要資訊的一站式服務。

未限制或支援多種對象的 PID

  • 資源典藏碼(Archival Resource Key, ARK):是一種多用途、可用來描述各類資訊物件的通用識別碼。ARK 是由加州數位圖書館(CDL)開發,目前由 ARK 聯盟(ARK Alliance)負責管理,CDL 則維運 N2T.net(Name-to-Thing)這個全球的 ARK 解析服務。從 2002 年起算的 20年間,ARK 已免費發行 82 億個識別碼。ARK 採分散式設計,也就是解析已發行 ARK 至資源所在地的工作,最終多是由發放該 ARK 的機構進行。例如 ARK 識別碼「ark:70795/ghmrs9」透過 N2T.net 服務解析:https://n2t.net/ark:70795/ghmrs9 後,僅會導向識別碼提供者所維護的服務網址:https://persist.lu/ark:70795/ghmrs9,再由該識別碼提供者負責導向參照的資源網址:https://viewer.eluxemburgensia.lu/ark:70795/ghmrs9。ARK 官方網站也有整理各程式語言解析器實作

    ARK 的分散式與自行維護設計使得 ARK 的物件解析功能相較其他識別碼具有更多的客製化彈性。例如上述的 N2T.net 同時提供的終端解析服務,便具有後綴直通(Suffix Passthrough)功能,可將識別碼後加上的文字,同步添加到參照的資源網址之後,例如 https://n2t.net/ark:12345/fk3 指向 https://www. google.com/search?q=,加上 PID 成為 https://n2t.net/ark:12345/fk3PID 後,便可指向 https://www.google.com/search?q=PID,也就是於 Google 搜尋 PID 一詞。
  • 持續統一資源位址(Persistent Uniform Resource Locator, PURL):是一種統一資源位址(uniform resource locator, URL),也就是常見的「網址」。在網路瀏覽器輸入 PURL 位址後,PURL 解析服務會回傳 HTTP 狀態碼(HTTP status code);例如 HTTP 301 永久移動,或 HTTP 302 臨時移動等,瀏覽器便能依據接收到的 HTTP 狀態碼,將 PURL 位址轉換為 物件的實際網址。於 2016 年,在持續運作 20 年後,美國國際圖書館電腦中心(OCLC)宣布將它擁有的 PURL 解析服務,轉移至網際網路檔案館(Internet Archive)。
     
  • W3ID:全稱為網際網路的永久識別碼(Permanent Identifiers for the Web),是由全球資訊網協會(W3C)下設的永久識別碼社群小組(Permanent Identifier Community Group)所建立的安全、永久轉址服務,主要目的是提供資料連結(linked data)所需的長期不變網址。使用者只要複製(fork)W3ID 在 GitHub 的倉儲內容(repository),加上包含網址重寫規則(W3ID 網址與物件實際網址的對應)的 .htaccess 檔案,再提交拉取請求(pull request),經倉儲維護者合併後,即可獲得獨立的識別碼命名空間。如 https://w3id.org/dpv 便用於 Data Privacy Vocabulary 這個資料連結語彙,並可在 https://github.com/perma-id/w3id.org/tree/master/dpv 了解它的網址重寫規則。

除上述識別碼,還有許多雖然不強調「持續」,但由於發展較早,已被廣泛採用的識別碼、代碼表或地名辭典(gazetteer)等,因仍具有持續的性質,也被作為 PID 使用。這類代碼包括:國際標準書號(International Standard Book Number, ISBN)、國際標準期刊號(International Standard Serial Number, ISSN)、虛擬國際權威檔案識別碼(Virtual International Authority File, VIAF ID)、GeoNames,以及 ISO 3166「國家與地區代碼表」等。

除此之外,維基資料(Wikidata)的項目識別碼(QID)近來也受到矚目,維基資料是完全由社群自主維護的跨語言協作資料庫,並由維基媒體基金會(Wikimedia Foundation)管理。Wikidata 以「項目」(item)為核心,每個項目都有與它相關的敘述及可靠的原始出處。維基資料為每個項目賦予一個以 Q 開頭的唯一識別碼,故又被稱為 QID,例如「宇宙」的識別碼為 Q1。維基資料也連結到其他的 PID 系統,讓使用者可以在不同來源的事實資訊間探索知識。

研究資料管理為何需要 PID?

精確與可驗證

學術研究重視精確,PID 的唯一性可以有效解決包括同名同姓、一字多義等容易造成語意混淆的問題。例如,當我們以維基資料的項目識別碼 Q7561635 指稱松山車站,就一定是臺灣鐵路管理局轄內的松山車站,而不會是隸屬於日本四國旅客鐵道(JR 四國)的同名車站。伴隨 PID 的後設資料,也提供關於 PID 的進一步描述與溯源資訊,有助於查核資料真偽。

提高研究效率

大部分 PID 均以網址呈現,也提供透過瀏覽器存取研究資料的捷徑,有助於達成研究資料 FAIR 原則中「可被取用」的需求;部分 PID 甚至以識別碼為基礎,提供更細緻的資訊檢索功能。法國國家圖書館的典藏系統,便藉助前述的後綴直通功能,在 ARK 識別碼後添加限定詞(qualifiers),如在 https://n2t.net/ark:12148/bpt6k5834013m 加上/f10,便可以瀏覽該書籍的第十頁。此外,目前主流的文獻管理工具,均支援自 PID(DOI、ISBN等)載入文獻的描述資料(如標題、作者、期刊名等),可以大幅節省整理文獻的時間;又如 DOI Citation Formatter 網站,提供將 DOI 識別碼與後設資料,輸出為各式文獻引用格式的服務。

促進相互連結

透過 PID 的可相互操作性(interoperability),將使研究者與學術成果的描述得以相互豐富,例如 Crossref 便透過擷取 DOI 的作者資訊,自動更新 ORCID 上的學術著作列表。ORCID 也運用其身份識別碼的特性,提供以 ORCID iD 作為認證方式,登入研究資料庫的功能。 Crossref 產製的 DOI 解析報告(resolution report),包括 DOI 的逐月解析次數統計,讓物件上傳者得以追蹤該物件的使用情形。

心動了嗎?如何開始使用 PID 於研究?

若您的研究領域已有推薦的 PID,使用相同的 PID 系統將有助於領域內的資訊交換。

另外,研究計畫所使用的資料儲存庫,是 PID 最主要的應用場域之一。主流的資料儲存庫,如 Zenodo、figshare、Harvard Dataverse 等,都針對寄存的資料集發行 DOI 識別碼;Zenodo 亦提供將資料集作者連結至 ORCID iD 的功能;臺灣在地的儲存庫──「研究資料寄存所」(depositar)也於近期啟用資料集的 ARK 識別碼服務。讀者們可確認使用的儲存庫是否已經整合 PID,以及它的功能是否符合讀者的研究需求。

若您的研究計畫尚未使用任何一種 PID,則可參考 FREYA Project 製作的選擇指南,比較各家 PID 的功能,搭配英國的數位策展中心(Digital Curation Centre)所建議的考量因素,挑選符合需要的 PID:

  • 識別碼應該識別什麼──資源、地點、後設資料,或以上皆是?
  • 識別碼是否需要全域唯一,或區域唯一即可?
  • 識別碼需要哪些基本功能(可識別性與可檢索性)?
  • 需要什麼程度的繁簡程度(granularity)?
  • 是否有需要合併的既有命名系統?若是,將如何處理新舊命名系統之間的相互操作性?
  • 將會使用具有明確語意或是隱晦的識別碼?
  • 版本控制可能是個問題,多大程度的資源變化足以賦予其新的識別碼?
  • (識別碼的)後設資料將被如何儲存與綁定到識別碼所指涉的資源?
  • 識別策略能否擴展以滿足未來需求?
  • 在流程的哪個階段會賦予資源識別碼?
  • 誰將為識別碼的管理負責?
  • 如何為識別碼的長期經營提供資金?

PID 是資訊汪洋中的指路明燈。PID 的持續性和獨特性,為來去匆匆的網際網路物件提供長期可被取得的可靠連結;尤其對於具有公眾利益、作為研究佐證或容易產生混淆的資料,PID 服務所賦予的穩定連結,也使資料溯源與驗證工作更加便利,提升使用者對資料的信任。下次在網路上搜尋資料時,讀者不妨留意這個位於角落,不起眼的英數字號碼。

延伸閱讀

  1. Dappert, A., et al. Connecting the Persistent Identifier Ecosystem: Building the Technical and Human Infrastructure for Open Research. Data Science Journal, 16, 28. https://doi.org/10.5334/dsj-2017-028
  2. Davidson, Joy. (2006). Persistent Identifiers. DCC Briefing Papers: Introduction to Curation. http://hdl.handle.net/1842/3368
  3. Meadows, A., et al. (2021). PIDs 101: A Beginners' Guide to Persistent Identifiers. https://doi.org/10.5281/ZENODO.4574566