美國第一起生成式AI構成合理使用判決:加州北區地院Bartz v. Anthropic PBC案

圖片來源 : shutterstock、達志影像

※如欲轉載本文,請與北美智權報聯絡

楊智傑/雲林科技大學 科技法律研究所 教授

文字生成式人工智慧(Gen AI)軟體 — Claude的開發公司Anthropic PBC,未經授權使用數百萬本他人書籍著作用以訓練Claude,因而被控告侵害書籍著作權。其是否能主張合理使用?美國加州北區法院William Alsup法官做出美國第一起判決(初步即決判決),認爲:(1)用於訓練AI軟體用途可構成合理使用;(2)購買實體書數位化建置通用資料庫構成合理使用;(3)盜版取得的數百萬本書籍檔案放在資料庫中則不構成合理使用。

被告Anthropic PBC是一家開發AI軟體的公司,由前OpenAI員工於2021年1月創立。其核心產品是一項名爲Claude的Gen AI軟體[1]。

在2021年1、2月時,Anthropic共同創辦人Ben Mann下載了Books3資料集 — 一個包含196,640本書的線上資料庫。於同年6月,Ben Mann以同樣方式從Library Genesis(LibGen)下載了至少5,000,000本書。2022年7月,Anthropic又從Pirate Library Mirror(PiLiMi)下載了至少2,000,000萬本書。就此,Anthropic共非法下載超過7,000,000本書,其中包含每位原告作者至少2本涉訟著作的複本[2]。

之後,爲了尋找獲取書籍的新途徑,Anthropic於2024年2月聘請Google Books計劃前合作伙伴的部門主管Tom Turvey。Anthropic斥資數千萬美元,購買數百萬本的實體書籍後,再將這些書籍拆除書脊、裁切書頁,並掃描成數位格式,被破壞的原始紙本書籍則被丟棄[3]。

Anthropic將二種來源的書籍複印檔建置了一箇中央資料庫,主要目的是用於訓練其大型語言模型(LLM)。每一個經過完整訓練的LLM本身都保留了其訓練資料的「壓縮」複本。實質上,每個LLM所建立的關聯映射(mapping)極爲完整,其幾乎逐字「記憶」這些用於訓練的著作。因此,若要求這些訓練完成的LLM背誦其訓練過的著作,它們能夠做到[4]。

然而,訓練用複本的流通僅止於此,並未擴散至外部市場。另外,當每一LLM被整合至Claude的對外版本時,還會配合其他軟體,對使用者輸入給LLM的內容進行過濾,並對LLM迴應給使用者的輸出結果也加以過濾[5]。

最後,即便Anthropic決定某些盜版書籍或掃描書籍的複本將完全不再用於訓練Claude,或未來永不使用,該公司仍會保留這些中央「研究資料庫」或「通用資料區」作爲其公司內部的「硬性資源」,以供其他用途或未來用途使用[6]。

此起判決原告是Andrea Bartz、Charles Graeber與Kirk Wallace Johnson三位書籍作者(由Bartz代稱之),主張其書籍著作權被Anthropic侵權[7]。2024年8月向加州北區地院提起本件之集體訴訟[8]。

Anthropic則提出動議,請求在集體訴訟認證之前,提前審理有關合理使用(fair use)的簡易判決動議[9]。本案法官William Alsup於2025年6月23日做出對「合理使用」議題的即決判決。法官對本案的用途區分爲二項 — 第一用途是Anthropic爲了訓練LLM,第二用途則是Anthropic爲了建立中央資料庫(保留作爲未來其他用途)。

用途1:訓練LLM

第一因素:訓練LLM具有轉化性目的與性質

法院認爲,將本案所涉書籍用於訓練Claude及其前身模型的「目的與本質」具有高度轉化性[10]。如同每位讀者渴望自己能成爲作家一般,Anthropic開發的LLM是爲了產出嶄新內容而訓練,而非簡單複製、替代原作。若此訓練過程在合理情況下需要於LLM中複製作品,該等複製行爲即屬轉化性使用[11]。

至於AI的生成紀錄顯示,Claude系統中設有額外軟體層,用以過濾LLM的輸出內容,確保不會向使用者傳遞侵權內容。這與Google Books計劃中所施加的限制類似,該服務限制每位使用者可見未購買之書籍摘錄字數,防止其搜尋工具淪爲可以免費完整閱讀著作的工具[12]。

法院指出,Anthropic的LLM並未對公衆重現任何作品的創作性內容,甚至也未重現某位作者可辨識的表達風格(即使假設這些內容可受著作權保護)[13]。

第二因素:不利於主張合理使用

第二因素上,所有被複制的書籍內容都是內容豐富且文法正確、良好書寫的句子,因此在第二因素上,不利於主張合理使用[14]。

第三因素:屬合理必要

第三因素上,使用著作的質與量。此因素的核心在於:使用的數量是否與其複製的目的「合理必要」(reasonably necessary)[15]。

在這裡的使用要區分爲二個問題,一是爲了訓練LLM有需要複製到數百萬本的書籍嗎?二是LLM輸出的內容是否過多呢?

就第一個問題,法院認爲答案爲肯定。雙方皆同意,訓練任一LLM所需的文字總量爲數十億詞彙。若僅使用書籍作爲來源,Anthropic每一模型至少需數百萬本書籍。即便使用包含書籍與其他文本的混合資料集,仍需數十萬本書[16]。

其次,就第二個針對輸出內容的使用問題,並沒有被指控構成侵權。雖然這些高品質作品對LLM訓練所帶來的益處,並未造成作品本身泄漏給大衆。因此,這類複製更顯其合理與正當[17]。

第四因素:未產生市場替代效果

在第四因素判斷上,着重於利用結果是否會對原著作產生市場替代效果。法院認爲,用於訓練特定LLM的複製品,既未、也不會取代市場對原告著作複本的需求[18]。

法院再次強調,Bartz承認,訓練LLM並未導致任何原告著作之完整複本或侵權仿作向公衆提供[19]。Bartz主張,訓練LLM將引發大量與其著作競爭的作品。法院在本判決中先假定此說成立。但原告的主張與其抱怨學童若被訓練寫作能力提升,將導致市場上出現大量競爭作品並無不同。《著作權法》關注的並非此類創作或競爭替代。《著作權法》的目的是促進原創性著作的產出,而非保護作者免受競爭[20]。

Bartz另主張,現在已經出現一個訓練AI的著作授權市場,而Anthropic未經授權使用傷害了這個訓練授權市場。Anthropic則反駁稱,進行此類授權交易的成本將超過其所預期可得之利益,這將迫使其放棄與任何權利人洽談,甚至終止開發該項技術。法院紀錄可支持任一主張,故法院認爲,該授權市場的確有可能發展。但即便如此,目前並未成熟,且該市場用途並非《著作權法》賦予Bartz專屬控制之對象[21]。

綜合分析

合理使用分析最後需要綜合分析四因素。法院認爲,除第二項因素(著作性質)外,其他所有因素皆支持構成合理使用。原因在於,所涉技術是本世代所能見證最具轉化性的技術之一[22]。

用途2:建立中央通用資料庫之行爲

法院在本判決中,另外將Anthropic用數位盜版和購買實體書掃描後建立的中央資料庫永久保留,是否構成合理使用,獨立進行分析。

就下載數位盜版著作以建構中央資料庫

法院認爲此一行爲無法構成合理使用。所有因素皆不利於主張合理使用,尤其這些書籍檔案乃非法取得。Anthropic的員工表示,即使某些作品(包括盜版品)已被決定不再用於訓練LLM,該公司仍將其永久保留於「通用用途」之資料庫中。此類利用用每一項都應有獨立正當化理由,而Anthropic並未提說明這類未來用途是否能主張合理使用,僅出於自身的成本與便利考量[23]。

將購買所得之實體書庫複本轉爲數位圖書館複本

就合法購買實體書轉爲數位檔後銷燬實體書,只將數位檔保留在中央資料庫中,由於這些書籍是合法購買,法院認爲構成合理使用,但其合理性基礎與訓練用的複製不同。此種情況下,第一因素強烈支持該使用,第三因素亦支持,第四因素則呈中立,僅第二因素略爲不利。但在綜合考量下,由於Anthropic購置的原始實體書籍已被拆解銷燬,且其數位複本未再被散佈,法院認定此類使用屬於合理使用[24]。

本案是Gen AI訓練是否構成合理使用的第一起判決,受各界關注。一方面,其參考了Google Books計劃的Authors Guild v. Google案判決,認爲Gen AI的輸出成果對原著作的利用量與市場替代效果,必須納入參考;二方面,其認爲合法取得著作進行AI訓練沒問題,但非法取得盜版進行AI訓練則有問題。這個區分可能會影響其他Gen AI訓練侵權的案件判決。然而,其他法院是否會採取本案提供的觀點?我們也只能繼續觀察。

延伸閱讀:

備註:

責任編輯:盧頎

【本文僅反映專家作者意見,不代表本報立場。】

真理大學法律系副教授

中央大學產業經濟所碩士

臺灣大學法學博士

延伸閱讀&電子報訂閱連結:

【詳細內容請見《北美智權報》384期;歡迎加入NAIPNews網站會員成爲我們的訂戶,以掌握最關鍵的專利商標智財消息!】