讓大型語言模型蓬勃發展——資料與技術的開放、協力、自主

Internet Archive Book Images 的 Flickr 相簿——從公眾領域圖書中抽取出的圖像

文/莊庭瑞

同文亦刊於《科技報導》 第 519 期

今 (2025) 年初始,大型語言模型 (Large Language Model, LLM) 的領域相當熱鬧,多項發展廣獲關注。舉例來說,DeepSeek AI 公司於一月中旬發布 DeepSeek-R1 模型與研究論文,宣稱能力與市場領頭羊 OpenAI 公司的 o1 模型相當。據產業人士估算,同樣的提問交給 DeepSeek-R1 模型回答所需耗費的能源,大概是 o1 模型所需能源的 5%。由於美國對高階 AI 晶片(高階繪圖處理器與資料通訊模組)出口到中國多有限制,位於杭州的 DeepSeek AI 使用的是非頂級的計算叢集設備,卻展現了前沿 AI 的研發能力。這消息讓美國股票市場上高階 AI 晶片設計商輝達 (NVIDIA) 的股價,在一月份一度下滑達 20%。

不過,本文關注的不是股市或產業,而是開發大型語言模型所需要的巨量圖文素材,究竟從何處取得的議題。這可從臉書母公司 Meta 兩年前發布的大型語言模型 Llama,以及隨後的著作權官司說起。

今年 2 月初,多家媒體揭露這起訴訟案的新發展,Meta 公司遭控經由「安娜典藏庫」(Anna’s Archive)1 從 Z-Library 和 LibGen 這兩個「陰影圖書館」(shadow library)2 網站取得高達 35.7TB 的資料。OpenAI 同時也面臨來自《紐約時報》 (The New York Times) 的訴訟。面對侵犯著作權的質疑,Meta 以及 OpenAI 等公司通常主張,使用網路上的圖文素材來訓練模型是「合理使用」(Fair Use),並不構成侵權行為;模型訓練完成後,這些素材即可刪除,只留下模型本身。不過,使用受著作權保護的內容是否合於合理使用的情形,還需考量「利用之目的及性質,包括係為商業目的或非營利教育目的」、「所利用之質量及其在整個著作所占之比例」、以及「利用結果對著作潛在市場與現在價值之影響」等事項 (參見臺灣《著作權法》第 65 條;United States Copyright Act of 1976, § 107),並非由使用者單方面宣稱。

在與 Meta 的訴訟中,著作權利人提出的通訊紀錄顯示,Meta 的員工使用了公司的網路跟筆電,並採用 BitTorrent (BT) 協定下載檔案。在 BT 的傳輸協定中,資料的下載者的也成為資料的提供者,這些電腦成為「同儕網路」上互助的資料節點。當特定檔案的需求增多時,供給也可隨著提高,資料如洪流 (torrent) 般在網路中流轉。Meta 若使用 BT 下載陰影圖書館的內容,就表示也同時在網路上散布這些檔案,很難被認定為合理使用的範疇。就連訴訟文件中,Meta 公司某位工程師也曾傳訊表示:「在公司的筆電用 BT,感覺不對😂」(“Torrenting from a corporate laptop doesn’t feel right 😂”)。

兩年前 Llama 模型初問世時,Meta 的論文明示訓練資料來源多樣,書籍占比 4.5%。其中一部分來自古騰堡計畫 (Gutenberg Project),這些書籍已歸入公眾領域,不受著作權保護;另一部分來自網路上的書籍集成 Books3 檔案,內含近 20 萬冊純文字格式的書籍內文。收於 Books3 的書籍很多仍受著作權保護,這也是著作權人跟 Meta 官司的起源。Meta 發展了一系列的 Llama 模型,但之後的論文就不再列出訓練資料的來源。OpenAI 也是這樣,GPT-3 模型於 2020 年發布時,論文中還概略列出訓練資料的來源,三年後的 GPT-4 技術報告就完全不提了。

值得關注的是,DeepSeek AI 在 2024 年三月在一篇關於視覺與語文模型的論文中,詳細列出圖文資料來源。其中包括使用光學字元辨識 (Optical Character Recognition, OCR) 方法,從安娜典藏庫中清理出 86 萬冊英文書籍以及 18 萬冊中文書籍的內文資料為訓練資料。DeepSeek-R1 模型問世後,安娜典藏庫刊出部落格表示「著作權改革已成為國安議題」(“Copyright reform is necessary for national security”)。西方國家如果要在大型語言模型跟中國競爭,不能不重新審視現行的著作權體制,要縮短著作保護年限(美國保護到著作人死後 70 年,臺灣則是 50 年),並正視大量語文資料的保存與使用。語言模型訓練需要大量圖文資料,陰影圖書館的存在卻有如禁果花園,只能祕而不宣各自進出使用;DeepSeek AI 坦承使用反而相對誠實。相較於中國雖有著作權法,也是「世界智慧財產組織」(World Intellectual Property Organization, WIPO) 的一員,但發展 AI 的過程中是否會面臨同樣的著作權限制,令人持疑。

大型語言模型的發展需要高品質的語文、影音與圖像資料集。資料集的品質很大部分依靠後設資料 (metadata) 以及來源資訊 (provenance) 的精確完整度,且要避免重複收錄。大量圖文素材需要費工清理,才能得到高品質的訓練資料集。用 OCR 方法處理文獻影像檔案之後還需要校讀整修編目,即使部分流程可以(半)自動化不需人工逐項處理,依舊耗用計算資源與儲存設備。資料清理完備後,後續的散布幾乎不需成本 (zero marginal cost of distribution),其實可以共同使用。不過,原始資料若來自陰影圖書館,在散布清理後的資料時就多有顧慮,除非以匿名方式回傳到陰影圖書館。重複的資料清理於是成為研究者的日常,耗費不必要的人力與資源;高品質資料難以流通也限制了跨機構的研究合作。

這類資料清理工作依據目的需求,還包括許多不同的細節。舉例來說,為了要能以自然語言驅動圖像生成,或是讓電腦能看圖說話,研究者需要蒐集大量的圖文對照資料,從網頁、文件、書籍檔案中擷取成對的圖像與圖說;為了建構自動聽寫系統,要從電影劇集影音檔案中,抽取出匹配的音軌與字幕檔;為了研究自動翻譯,也就需要大量的高品質翻譯文本。這些資料蒐集清理的工作,是開發應用系統的基礎,卻常得不到研究單位和科研資助機構的關愛。

雖然遭遇諸多限制,這類資料匯集的工作仍持續進行中。在歐洲因多語言的文化背景與使用環境,建構主題性、高品質、且可共同使用的圖文資料集的工作相對獲得重視。去年 11 月公開、高達兩兆字符 (token) 的「共用語料庫」(Common Corpus) 就相當有代表性。此語料庫內容來自已歸入公眾領域的書籍報紙、公部門的經濟法律文件、維基百科全書以及網路上已授權給公眾使用的內容,強調來源清楚、組成多樣 (字符數量上當然還是以英文和法、德、西等歐洲語文居多)。這項專案是歐洲資料基礎聯盟 ALT-EDIC (Alliance for Language Technologies EDIC) 的服務,強調開放且可信任性,部分經費來自法國文化部以及隸屬於總理辦公室的數位總處。

至於影音與圖像,也有多項專案陸續建置可共用的訓練資料集。YouTube-Commons 資料集內容來自 YouTube 上的兩百萬部影片,可從其中抽取出聲音與字幕檔,這些影片都以「創用 CC 姓名標示」(CC BY) 授權方式,任何人都可自由使用。YouTube-Commons 的工作同樣受到法國文化部以及數位總處的支持。去年開始的 Public Domain 12M 以及十年前就發布的 Internet Archive Book Images 都是可自由取用的公眾領域圖像來源。

在語音方面,非營利組織謀智基金會 (Mozilla Foundation) 的 Common Voices 專案透過簡易的網頁互動方式,持續收錄各地的語音資料,尤其關注弱勢語言,並強調共創共用精神,以 CC0 公眾領域宣告方式釋出專案產出的所有資料集,不主張任何著作權利。Mozilla 台灣社群與台灣維基媒體協會目前正以專案經費補助方式,推動建置可自由使用的排灣、賽德克、撒奇萊雅、泰雅、魯凱、布農等語群的族語語音資料庫

DeepSeek-R1 模型的發展告訴我們,建構大型語言模型在硬體與能源投資的成本,有機會不再是高不可及,而模型的日常使用成本也可大幅降低。但仍舊需要高品質資料協助大型語言模型的發展,在調校既有模型時尤是。如何取得可開放使用、後設資料完備、且來源清楚的高品質資料集,將是大型語言模型能否「平民化」(democratization) 的關鍵。去年 6 月謀智基金會跟人工智慧公司 EleutherAI 就開放授權的訓練資料集這議題,召集 30 位學者專家共同研討規範原則跟技術實務,初步報告於一月中完成。

就在 2 月 3 日,由歐盟「數位歐洲計畫」(Digital Europe Programme) 資助的 Open Euro LLM 專案正式開跑,集結 11 所大學與研究機構、5 家公司以及 4 個高速計算中心,要協力開發一系列真正開放、合乎規範、語文多樣的大型語言模型,確保軟體、資料、模型本身以及評比方法都會公開,並可再次調整使用於公部門跟產業。大型語言模型的發展已進入下個階段,資料與技術的開放、協力、與自主議題,將持續獲得關注,也會是 AI 未來能否平民化的關鍵。

延伸閱讀

Anna and the team. (2025-01-31). Copyright reform is necessary for national security. Anna’s Blog, <https://annas-archive.org/blog/ai-copyright.html>.

Karaganis, J., editor. (2018). Shadow Libraries: Access to Knowledge in Global Higher Education. MIT Press. <https://doi.org/10.7551/mitpress/11339.001.0001>.

Baack, J. et al. (2025-01-14). Towards Best Practices for Open Datasets for LLM Training. arXiv:2501.08365, <https://arxiv.org/abs/2501.08365>.

  1. 安娜典藏庫不只是散布資料,也扮演內容徵集的角色,歡迎大量資料的捐贈,例如從大批掃描影像檔案抽取出的文本。安娜典藏庫號號召使用者一起改善收錄檔案的後設資料,並增進網站的功能與收錄規模,以群策群力方式經營共用的數位資源園地。
  2. 指由不能公開流通的書籍、論文、影音、軟體等大量檔案建置而成的(數位)典藏庫。這些檔案不能公開流通有諸多原因,有些是內容隱晦或不容於當局,更多是因為著作權的限制。陰影圖書館目前已成為眾人取用知識的重要來源,功能角色受到研究者的關注。