Kadrey 等人诉 Meta 一案的原告提交了一份动议,指控 Meta 公司在开发其人工智能模型时故意使用了受版权保护的作品。
包括作家理查德-卡德雷(Richard Kadrey)在内的原告向美国加利福尼亚州北区地方法院提交了 “支持原告提交第三次修正合并原告申请的答辩状”(Reply in Support of Plaintiffs' Motion for Leave to File Third Amended Consolidated Complaint)。
这份文件指控 Meta 系统性地从盗版数据集中下载和剥离版权管理信息(CMI),其中包括声名狼藉的影子图书馆 LibGen 的作品。
根据最近提交给法院的文件,证据显示了涉及 Meta 高层领导的严重犯罪行为。原告声称,尽管公司的人工智能高管提出了内部担忧,但 Meta 首席执行官马克-扎克伯格(Mark Zuckerberg)还是明确批准使用 LibGen 数据集。
2024 年 12 月,Meta 内部讨论的一份备忘录承认 LibGen 是 “我们知道是盗版的数据集”,并就使用此类材料的道德和法律后果展开了辩论。文件还显示,高层工程师对数据集的下载犹豫不决,因为他们担心将公司的笔记本电脑用于潜在的非法活动。
此外,内部通信显示,在获得 LibGen 数据集后,Meta 从其中包含的版权作品中剥离了 CMI--原告强调这种做法是版权侵权索赔的核心。
根据 Meta 公司代表迈克尔-克拉克(Michael Clark)的证词,该公司使用脚本来删除任何可识别这些作品版权的信息,包括 “版权”、“致谢 ”等关键词或此类文本中常用的行文。克拉克证实,这种做法是有意为之,目的是为训练 Meta 的 Llama AI 模型准备数据集。
对 Meta 公司的指控描绘了这样一幅图景:该公司在知情的情况下参与了通过山洪暴发传播的广泛盗版计划。
根据一连串作为证物的电子邮件,Meta 公司的工程师对在公司内部传播盗版数据集的行为表示担忧。一名工程师指出,“从(Meta 公司所有的)公司笔记本电脑上下载盗版数据感觉不妥”,但尽管犹豫不决,盗版数据的快速下载和分发(或称 “播种”)还是发生了。
原告的法律顾问称,早在 2024 年 1 月,Meta 就 “已经从 LibGen 上下载(下载和分发)了数据”。此外,记录显示,数百份相关文件最初是在数月前由 Meta 公司获得的,但在早期的取证过程中被扣留。原告认为,这种延迟披露相当于 Meta 公司恶意阻挠获取重要证据。
据报道,在 2024 年 12 月 17 日的取证过程中,扎克伯格本人承认此类活动会引起 “许多警示”,并表示这 “似乎是件坏事”,但他对 Meta 公司更广泛的人工智能训练实践的直接回应有限。
本案最初是一起知识产权侵权诉讼,原告代表作者和出版商,声称人工智能使用了他们的材料。不过,原告现在寻求在诉讼中增加两项主要诉求:违反《数字千年版权法》(DMCA)和违反《加利福尼亚州全面数据访问和欺诈法》(CDAFA)。
根据《数字千年版权法》,原告声称 Meta 公司在知情的情况下取消了版权保护,以掩盖在其 Llama 模型中未经授权使用版权文本的行为。
正如诉状所引述的那样,Meta 公司据称取消了 CMI,“以减少模型记忆这些数据的机会”,而取消版权管理指标使版权持有者更难发现侵权行为。
CDAFA的指控涉及Meta公司获取LibGen数据集的方法,包括未经许可从事torrenting以获取受版权保护的数据集。内部文件显示,Meta 工程师曾公开讨论过播种和下载可能被证明是 “法律上不可行 ”的担忧。
上一条: 微软利用MatterGen推进材料发现
下一条: 没有了