Meta 深陷盜版泥潭,郵件曝光 81.7 TB AI 訓練數據黑幕
IT之家 2 月 7 日消息,科技媒體 Ars Technica 今天(2 月 7 日)發佈博文,報道稱 Meta 公司再次因其 AI 模型訓練數據來源,而陷入法律糾紛。
原告披露了一份電子郵件證據,表明 Meta 不僅知曉使用 LibGen 數據庫進行 AI 訓練涉及盜版行爲,而且還試圖掩蓋其通過種子下載(torrenting)方式,獲取至少 81.7 TB 數據的行爲,甚至採取了“隱身模式”操作。
IT之家援引博文介紹,Meta 研究員 Frank Zhang 的內部郵件顯示,Meta 爲防止任何人追蹤到下載源,在下載數據集時特意避免使用 Facebook 服務器,並稱這種操作爲“隱身模式”。
負責項目管理的 Meta 高管邁克爾・克拉克(Michael Clark)在證詞中表示,Meta 修改了設置,以儘可能減少種子傳播。
作者聲稱,未經編輯的郵件顯示,使用 LibGen 的決定是在“此前上報給 MZ(馬克・扎克伯格)”之後做出的,這與扎克伯格此前聲稱對使用 LibGen 不知情的證詞相矛盾。
作者認爲,這些新證據與 Meta 之前的證詞相矛盾,要求再次傳喚涉事員工作證。儘管 Meta 堅稱使用 LibGen 進行 AI 訓練屬於“合理使用”,但新的證據無疑使其處境更加複雜。
Meta 此前曾試圖駁回關於其通過種子下載傳播版權作品的指控,稱原告未能提供任何第三方通過 Meta 的種子下載獲得書籍的實例。然而,隨着更多關於 Meta 種子下載行爲的信息曝光,Meta 的辯護策略似乎面臨更大的挑戰。