*本文亦刊載於 2022-10-15 科技報導*
文/李承錱(中央研究院資訊科學研究所,研究資料寄存所技術經理)
現代人查詢資料離不開網路,覓得網路資料並引述資料來源時,往往一個網址(URL)便可代表千言萬語。但是,根據美國國會圖書館(Library of Congress)建立的部落格 The Signal 所整理的資料,網頁的平均壽命(從被建立到失效)約為 44∼100 天不等,包括網站改版、營運者決定關閉網站等,都是網址失效的可能原因。因此,單純使用網頁網址作為網路資源的參照,對資料的長期保存並不可靠。為了讓網路使用者能準確存取網路上的資源,持續識別碼(persistent identifier, PID)的服務因應而生。
什麼是「持續識別碼」?#
PID 是一種用以參照各類事物的長期性編碼,通常用於網路上的物件。顧名思義,PID 包含「持續」與「識別碼」兩個核心要素。「持續」代表PID服務提供者維繫服務營運的承諾。PID 服務提供者的長期營運承諾,確保 PID 能持續指向某個網路物件的最新網址,即使該物件因故被移動或刪除,也會清楚交代該物件的最新去向,而非僅顯示 404 Not Found(找不到)訊息。例如數位物件識別碼(Digital Object Identifier, DOI)就建議提供識別碼的儲存庫,應建立墓碑頁面(Tombstone Pages),並於頁面載明物件失效的原因。也由於 PID 的持續性,是建立於使用者對營運者的信任之上,因此 PID 服務提供者必須妥善管理該服務,並考量服務停止時的轉移問題。
「識別碼」則是 PID 的外顯特徵:可識別該物件的獨特編號 。PID 一般由英文字母與數字構成,各類 PID 雖有不同的編碼規則,但每個 PID 編號都獨一無二,不重複發放。同時,由於網頁瀏覽器是現代網路的入口,大多數 PID 服務都提供解析功能,含有 PID 編號的網 址,並導向 PID 指涉物件所在的最新網址。所以當物件被刪除時,也會將對應的 PID 註記為失效編號。以 DOI 為例,「doi:10.1000/182」代表 DOI Handbook 這份線上文件,我們便可以使用 https://doi.org/10.1000/182 這個含 PID 編號的網址,透過 DOI 提供的解析服務,取得存放在 https://www.doi.org/hb.html 的這份文件。
持續識別碼的種類#
依照發放的對象分類,目前較為流通的 PID 如下:
以「人物、組織」為對象的 PID:#
- 國際標準名稱識別碼(International Standard Name Identifier, ISNI):是一項 ISO 標準(ISO 27729),用於唯一辨識參與創作活動(書籍、電視節目等)的個人或組織(唱片公司、出版社等)。ISNI 由註冊於英國的 ISNI International Agency Ltd 這個機構負責管理,機構成員涵括多國的法定送存(legal deposit)圖書館與高等教育機構。截至今(2022)年 5 月,ISNI 已收錄超過 1300 萬個公開個人檔案,以及 160 萬個公開組織檔案。
- 開放型研究者與貢獻者識別碼(Open Researcher and Contributor ID, ORCID):ORCID 為研究者提供免費、唯一且持久的身份識別,由非營利組織 ORCID, Inc. 維護與推廣。自 2012 年起開始發放,至今年 5 月止,已有超過 1400 萬個 ORCID iD 被發放。在技術層面,ORCID 以 ISNI 的規格設計,並為後者的一部分。
- 全球研究識別碼資料庫(Global Research Identifier Database, GRID):GRID 是有關研究組織的公開名錄資料庫,由英國 Digital Science 於 2005 年首次公開,2006 年改以公眾領域貢獻宣告(CC0)釋出資料庫。去(2021)年 9 月的最終版本,包含超過 10 萬個世界各國研究組織的名稱、地址、網址、電子信箱等基本資訊。除了以網頁與應用程式介面(API)存取,GRID 同時提供 JSON 與 CSV 格式的封存檔案,以及資料連結(linked data)介面。GRID 計畫結束後,由 ROR 接續工作。
- 研究機構登錄(Research Organization Registry, ROR):ROR 由研究社群主導,目標是提供開放的研究組織識別碼與相關後設資料(metadata)。ROR 計畫繼承自 GRID,於 2019 年啟動,以後者的資料為基礎,並由加州數位圖書館、Crossref 與 DataCite 共同發展與經營。一個 ROR ID 也可包含其在 GRID、ISNI、Crossref Funder ID 和 Wikidata QID 等其他 PID 服務的對應編號,得以相互操作。ROR 也提供網頁介面、API 與 JSON 格式的封存檔案,今年 3 月的最新版本收錄超過 10 萬個研究組織資訊。
以「事物」為對象的 PID :#
- Handle System:Handle 是一非商業性的識別碼解析系統,1994 年由美國國家創新研究公司(Corporation for National Research Initiatives, CNRI)開發並維護至 2015 年,現由 DONA 基金會(DONA Foundation)負責管理。Handle 不僅是眾多 PID(如以下介紹的 DOI、RAiD、IGSN)的技術核心,也經營名為 Handle.Net 的識別碼登錄與解析服務,與發行以 Java 撰寫的軟體套件,可用於機構內部發行識別碼。 Handle System 的技術細節,定義於網際網路工程任務編組(IETF)發行的 RFC 3650 至 3652 之中。
- DOI:是學術領域最廣為人知的 PID 系統之一,為物件(如學術文章、書籍、資料等)提供數位化的識別碼,由國際數位物件識別號基金會(International DOI Foundation)於 1998 年發起。DOI 實作 Handle System 的識別碼功能,它的後設資料「資料字典」(data dictionary)建基於用以描述數位交易的indecs(interoperability of data in e-commerce systems)後設資料架構,並在歐盟的前身──歐洲共同體(European Community)的支持下進行開發。DOI 可描述物件的出版資訊、摘要,甚至可以包含物件的完整內容。根據資料的繁簡程度(granularity),DOI 識別碼也可被切割為多個子集合(subsets)。DOI 目前由 11 個註冊代理機構(Registration Agencies)受理識別碼申請(通常為付費服務),並已發放逾 2 億 7000 萬個識別碼。DOI 同時也是一項 ISO 標準(ISO 26324)。
- 國際通用樣本號(International Generic Sample Number, IGSN):主要用於唯一辨識研究時搜集的實體樣本(physical samples),最早使用於地球科學,後擴及所有研究領域。IGSN 的識別碼同樣是基於 Handle System,名為 IGSN ID;維護的後設資料綱要 IGSN descriptive metadata schema 著重描寫樣本的材質與所在空間等資訊。目前全球有 10 個 IGSN 分發機構,如法國國家科學研究中心(Centre national de la recherche scientifique, CNRS)與澳洲研究資料共享中心(Australian Research Data Commons, ARDC)等。為因應持續增長的需求,IGSN 組織(IGSN Organization)與 DataCite 建立合作關係,並於今年 9 月起改由 DataCite 發放 DOI 形式的 IGSN ID。
- 研究活動識別碼(Research Activity Identifier, RAiD):是為描述研究計畫而設計的識別碼,涵蓋研究計畫的人員、儀器、機構、研究成果等描述。RAiD 由 ARDC 於去年推出,以 Handle System 實作識別碼功能,目前主要用於 ARDC 的研究計畫管理系統,同時也接受外部申請。RAiD 的特色,在於彙整 ORCID、DOI、ROR、IGSN 等與研究計畫相關的識別碼系統,提供研究計畫的關係者(研究團隊、贊助者、研究機構等)獲取關於計畫重要資訊的一站式服務。
未限制或支援多種對象的 PID:#
- 資源典藏碼(Archival Resource Key, ARK):是一種多用途、可用來描述各類資訊物件的通用識別碼。ARK 是由加州數位圖書館(CDL)開發,目前由 ARK 聯盟(ARK Alliance)負責管理,CDL 則維運 N2T.net(Name-to-Thing)這個全球的 ARK 解析服務。從 2002 年起算的 20年間,ARK 已免費發行 82 億個識別碼。ARK 採分散式設計,也就是解析已發行 ARK 至資源所在地的工作,最終多是由發放該 ARK 的機構進行。例如 ARK 識別碼「ark:70795/ghmrs9」透過 N2T.net 服務解析:https://n2t.net/ark:70795/ghmrs9 後,僅會導向識別碼提供者所維護的服務網址:https://persist.lu/ark:70795/ghmrs9,再由該識別碼提供者負責導向參照的資源網址:https://viewer.eluxemburgensia.lu/ark:70795/ghmrs9。ARK 官方網站也有整理各程式語言解析器實作。
ARK 的分散式與自行維護設計使得 ARK 的物件解析功能相較其他識別碼具有更多的客製化彈性。例如上述的 N2T.net 同時提供的終端解析服務,便具有後綴直通(Suffix Passthrough)功能,可將識別碼後加上的文字,同步添加到參照的資源網址之後,例如 https://n2t.net/ark:12345/fk3 指向 <https://www. google.com/search?q=>,加上 PID 成為 https://n2t.net/ark:12345/fk3PID 後,便可指向 https://www.google.com/search?q=PID,也就是於 Google 搜尋 PID 一詞。
- 持續統一資源位址(Persistent Uniform Resource Locator, PURL):是一種統一資源位址(uniform resource locator, URL),也就是常見的「網址」。在網路瀏覽器輸入 PURL 位址後,PURL 解析服務會回傳 HTTP 狀態碼(HTTP status code);例如 HTTP 301 永久移動,或 HTTP 302 臨時移動等,瀏覽器便能依據接收到的 HTTP 狀態碼,將 PURL 位址轉換為 物件的實際網址。於 2016 年,在持續運作 20 年後,美國國際圖書館電腦中心(OCLC)宣布將它擁有的 PURL 解析服務,轉移至網際網路檔案館(Internet Archive)。
- W3ID:全稱為網際網路的永久識別碼(Permanent Identifiers for the Web),是由全球資訊網協會(W3C)下設的永久識別碼社群小組(Permanent Identifier Community Group)所建立的安全、永久轉址服務,主要目的是提供資料連結(linked data)所需的長期不變網址。使用者只要複製(fork)W3ID 在 GitHub 的倉儲內容(repository),加上包含網址重寫規則(W3ID 網址與物件實際網址的對應)的 .htaccess 檔案,再提交拉取請求(pull request),經倉儲維護者合併後,即可獲得獨立的識別碼命名空間。如 https://w3id.org/dpv 便用於 Data Privacy Vocabulary 這個資料連結語彙,並可在 https://github.com/perma-id/w3id.org/tree/master/dpv 了解它的網址重寫規則。
除上述識別碼,還有許多雖然不強調「持續」,但由於發展較早,已被廣泛採用的識別碼、代碼表或地名辭典(gazetteer)等,因仍具有持續的性質,也被作為 PID 使用。這類代碼包括:國際標準書號(International Standard Book Number, ISBN)、國際標準期刊號(International Standard Serial Number, ISSN)、虛擬國際權威檔案識別碼(Virtual International Authority File, VIAF ID)、GeoNames,以及 ISO 3166「國家與地區代碼表」等。
除此之外,維基資料(Wikidata)的項目識別碼(QID)近來也受到矚目,維基資料是完全由社群自主維護的跨語言協作資料庫,並由維基媒體基金會(Wikimedia Foundation)管理。Wikidata 以「項目」(item)為核心,每個項目都有與它相關的敘述及可靠的原始出處。維基資料為每個項目賦予一個以 Q 開頭的唯一識別碼,故又被稱為 QID,例如「宇宙」的識別碼為 Q1。維基資料也連結到其他的 PID 系統,讓使用者可以在不同來源的事實資訊間探索知識。
研究資料管理為何需要 PID?#
精確與可驗證#
學術研究重視精確,PID 的唯一性可以有效解決包括同名同姓、一字多義等容易造成語意混淆的問題。例如,當我們以維基資料的項目識別碼 Q7561635 指稱松山車站,就一定是臺灣鐵路管理局轄內的松山車站,而不會是隸屬於日本四國旅客鐵道(JR 四國)的同名車站。伴隨 PID 的後設資料,也提供關於 PID 的進一步描述與溯源資訊,有助於查核資料真偽。
提高研究效率#
大部分 PID 均以網址呈現,也提供透過瀏覽器存取研究資料的捷徑,有助於達成研究資料 FAIR 原則中「可被取用」的需求;部分 PID 甚至以識別碼為基礎,提供更細緻的資訊檢索功能。法國國家圖書館的典藏系統,便藉助前述的後綴直通功能,在 ARK 識別碼後添加限定詞(qualifiers),如在 https://n2t.net/ark:12148/bpt6k5834013m 加上/f10,便可以瀏覽該書籍的第十頁。此外,目前主流的文獻管理工具,均支援自 PID(DOI、ISBN等)載入文獻的描述資料(如標題、作者、期刊名等),可以大幅節省整理文獻的時間;又如 DOI Citation Formatter 網站,提供將 DOI 識別碼與後設資料,輸出為各式文獻引用格式的服務。
促進相互連結#
透過 PID 的可相互操作性(interoperability),將使研究者與學術成果的描述得以相互豐富,例如 Crossref 便透過擷取 DOI 的作者資訊,自動更新 ORCID 上的學術著作列表。ORCID 也運用其身份識別碼的特性,提供以 ORCID iD 作為認證方式,登入研究資料庫的功能。 Crossref 產製的 DOI 解析報告(resolution report),包括 DOI 的逐月解析次數統計,讓物件上傳者得以追蹤該物件的使用情形。
心動了嗎?如何開始使用 PID 於研究?#
若您的研究領域已有推薦的 PID,使用相同的 PID 系統將有助於領域內的資訊交換。
另外,研究計畫所使用的資料儲存庫,是 PID 最主要的應用場域之一。主流的資料儲存庫,如 Zenodo、figshare、Harvard Dataverse 等,都針對寄存的資料集發行 DOI 識別碼;Zenodo 亦提供將資料集作者連結至 ORCID iD 的功能;臺灣在地的儲存庫──「研究資料寄存所」(depositar)也於近期啟用資料集的 ARK 識別碼服務。讀者們可確認使用的儲存庫是否已經整合 PID,以及它的功能是否符合讀者的研究需求。
若您的研究計畫尚未使用任何一種 PID,則可參考 FREYA Project 製作的選擇指南,比較各家 PID 的功能,搭配英國的數位策展中心(Digital Curation Centre)所建議的考量因素,挑選符合需要的 PID:
- 識別碼應該識別什麼──資源、地點、後設資料,或以上皆是?
- 識別碼是否需要全域唯一,或區域唯一即可?
- 識別碼需要哪些基本功能(可識別性與可檢索性)?
- 需要什麼程度的繁簡程度(granularity)?
- 是否有需要合併的既有命名系統?若是,將如何處理新舊命名系統之間的相互操作性?
- 將會使用具有明確語意或是隱晦的識別碼?
- 版本控制可能是個問題,多大程度的資源變化足以賦予其新的識別碼?
- (識別碼的)後設資料將被如何儲存與綁定到識別碼所指涉的資源?
- 識別策略能否擴展以滿足未來需求?
- 在流程的哪個階段會賦予資源識別碼?
- 誰將為識別碼的管理負責?
- 如何為識別碼的長期經營提供資金?
PID 是資訊汪洋中的指路明燈。PID 的持續性和獨特性,為來去匆匆的網際網路物件提供長期可被取得的可靠連結;尤其對於具有公眾利益、作為研究佐證或容易產生混淆的資料,PID 服務所賦予的穩定連結,也使資料溯源與驗證工作更加便利,提升使用者對資料的信任。下次在網路上搜尋資料時,讀者不妨留意這個位於角落,不起眼的英數字號碼。
延伸閱讀#
- Dappert, A., et al. Connecting the Persistent Identifier Ecosystem: Building the Technical and Human Infrastructure for Open Research. Data Science Journal, 16, 28. https://doi.org/10.5334/dsj-2017-028
- Davidson, Joy. (2006). Persistent Identifiers. DCC Briefing Papers: Introduction to Curation. http://hdl.handle.net/1842/3368
- Meadows, A., et al. (2021). PIDs 101: * A Beginners’ Guide to Persistent Identifiers*. https://doi.org/10.5281/ZENODO.4574566



