社論-AI新創與著作權對撞 遊戲規則「明確化」得加快

各界對於資料治理有不少討論,臺灣的著作權法因帶有刑事責任,以及相比其他各國所採取的「明確」態度,現階段仍屬模糊,對AI發展變數不小。圖/摘自Pixabay

生成式AI(Generative AI)快速成爲資訊生產與內容轉化的新主角,也引爆了一連串資料使用與著作權爭議。從AI走進生成式技術,國際間內容創作與版權擁有者,對於AI公司資料訓練模型爭議不斷,近來,國內相關案例燒進法院,引起新創及科技圈注意,數發部長黃彥男迴應不是「爬蟲」技術問題,是「爬」哪個資料問題,點出國內資料治理盲點。

約從2022年底開始,內容創作擁有者對於AI訓練資料,開始從科技創新的振奮轉爲憤怒,包括微軟、Meta、Google,甚至是OpenAI等科技公司,相繼因侵權疑慮被告上法院。

最近,國內也出現指標性案例,一是臺大博士生在臉書「Generative AI技術交流中心」社羣分享繁體中文資料集被提告,終因內容下架與犯意等原因而和解;另一宗則是被稱爲「法律界Google」的七法公司,被競爭同業控告透過「爬蟲」程式獲取AI訓練資料,因刑度較重受到熱議。

兩案例主體分別來自媒體與法界,本質都圍繞同一問題,當AI與爬蟲工具大量蒐集,並再現既有內容,當今法律制度是否已有足夠準備?除界定什麼是合理使用,創新利用如何定義,侵權原因,甚至侵權者的界定,以七法一審案例,凸顯出臺灣在AI與資料創新發展上的法律空窗與制度遲滯。

生成式AI依賴大量資料作爲訓練素材,被看做是AI發展的柴火,透過資料建構模型,輸出類似人類創作的文本、圖像、影音。

這些資料來源,左右着生成內容與再生成內容,及主權AI模型品質,何況受著作權保護的資料,幾經生成,都可能與原內容有所差異,但無論輸出內容「重製」與否,都可能落入灰色地帶。

今年6月,美國AI新創公司Anthropic、Meta侵權訴訟判決都出現「合理使用」認定而勝訴,關鍵在於「轉化性」利用,也就是透過AI能否讓原創產生新意。當然,商業上的得利程度、比例,也是法律攻防的要點。

以日本《人工智慧著作權檢核清單和指引》賦予AI訓練資料合法的重製,同時列出不合理損害著作權利用的情況;美國則保持法律案例彈性,並根據合理使用的四項要素來判斷,包括使用目的與性質、原創性質、使用部分的數量與實質性、對市場或著作價值影響。至於歐盟,則選擇針對文本與資料探勘、科學研究目的等給予限制或責任豁免。

臺灣現況是,光現行著作權法在用詞定義上就難以明確因應。各界對資料能否「合法」餵養AI,有極大不確定性,導致原創者無法確保成果不被剽竊;AI開發者也面臨訓練資料合法風險。

回到數發部所主責的資料創新,依其說法是爲發展資料運用,打造資料創新應用環境爲目標,推動數據公益、資料自主及資料開放等多元模式,並以夥伴關係擴展非政府及民間組織數據協作,壯大創新能量。

各界對於資料治理有不少討論,臺灣的著作權法因帶有刑事責任,以及相比其他各國所採取的「明確」態度,現階段仍屬模糊,對AI發展變數不小。

如今《促進資料創新利用條例草案》進入立法程序,期待能解決AI資料的著作權問題,但畢竟立法用意偏向「促進」,相關子法或修法也未跟進,侵權、商業協議與創新資料議題上,還有很多拉扯空間。