人工智能公司是如何靠盗版书来训练大模型的?
近期曝光的法院文件显示,Meta和OpenAI等人工智能公司曾使用盗版书籍来训练其大语言模型,引发了关于版权和“合理使用”的激烈讨论,本文将深入探讨这一争议行为及其背后的法律和道德困境。
法院文件显示,对人工智能公司来说,“书籍实际上比网络数据更重要”。
当Meta的员工开始开发其旗舰人工智能模型Llama 3时,他们面临了一个简单的道德问题。为了与ChatGPT等产品竞争,该程序需要在大量高质量文本上进行训练,而合法获取所有这些文本可能需要时间。
他们是否应该选择盗版呢?
Meta的员工与多家公司就授权书籍和研究论文进行了沟通,但他们对这些选择并不满意。一名研究科学家在公司内部聊天中写道:“这似乎太贵了”,这是针对一个潜在交易的评论,法院记录显示。
Llama团队的一名高级经理补充说,这一过程也将“极其缓慢”:“他们需要4周以上的时间来提供数据。”
在另一份法律文件中,一名工程总监指出了这种方法的另一个缺点:“问题是人们没有意识到,如果我们授权了一本书,我们就无法利用合理使用策略”,这是对使用版权书籍训练人工智能可能的法律辩护的引用。
昨晚公布的法院文件显示,该高级经理认为,对Meta来说,“尽快获得书籍”是“非常重要的”,因为“书籍实际上比网络数据更重要”。
Meta的员工将注意力转向了Library Genesis(LibGen),这是在线流传的最大的盗版图书馆之一。
它目前包含超过750万本书籍和8100万篇研究论文。
最终,Meta的团队获得了“MZ”的许可——这显然是对Meta首席执行官马克·扎克伯格的引用来下载并使用该数据集。
这一行为以及此处概述和引用的其他信息,最近成为公开记录的一部分。这是因为在Sarah Silverman、Junot Díaz和其他LibGen书籍作者对Meta提起的版权侵权诉讼中,Meta的一些内部通信被解封。
最近在另一场由类似作者群体提起的诉讼中,还揭露了OpenAI也曾使用过LibGen。(Meta的一位发言人拒绝置评,理由是针对该公司的诉讼正在进行中。
在本文发表后,OpenAI的一位发言人在回应中表示:“如今为ChatGPT和我们的API提供支持的模型并不是使用这些数据集开发的。
这些数据集是由已经离开OpenAI的前员工创建的,最后一次使用是在2021年。”)直到现在,尽管大多数人可能已经接触过使用该图书馆内容的生成式人工智能产品,但很少有人能够了解其内容。
根据扎克伯格的说法,“Meta AI”助手已经被数亿人使用(它嵌入在Meta的产品中,如Facebook、WhatsApp和Instagram)。
为了展示Meta和OpenAI所使用的作品类型,我访问了LibGen的元数据快照,在不下载或分发书籍和研究论文本身的情况下揭示图书馆的内容,并用它创建了一个你可以在此处搜索的交互式数据库。
需要注意一些重要的注意事项。我们无法确切知道Meta和OpenAI在训练模型时使用了LibGen的哪些部分,以及他们可能决定排除哪些部分。
此外,该数据库还在不断增长。我的LibGen快照是在2025年1月拍摄的,根据诉讼,这比Meta访问它的时间晚了一年多,因此这里的一些标题在那时可能还无法下载。
LibGen的元数据相当混乱,其中存在许多错误。
尽管我已经以各种方式清理了数据,但由于LibGen规模庞大且错误众多,很难修复所有问题。
尽管如此,该数据库仍然展示了LibGen训练模型所使用的盗版材料的惊人规模。《库乔》(Cujo)、《古拉格群岛》(The Gulag Archipelago)、琼·迪迪翁(Joan Didion)的多部作品被翻译成多种语言、一篇名为《网络末日生存指南》(Surviving a Cyberapocalypse)的学术论文——所有这些内容都在这里,还有数百万其他作品可供人工智能公司输入到他们的模型中。
Meta和OpenAI都在法庭上辩称,未经许可使用版权作品训练生成式人工智能模型属于“合理使用”,因为大型语言模型(LLMs)将原始材料“转化为”新的作品。
这一辩护引发了棘手的问题,距离解决可能还有很长的路要走。
然而,LibGen的使用提出了另一个问题。批量下载通常使用BitTorrent完成,这种文件共享协议因匿名性而受到盗版者的欢迎,而使用BitTorrent下载通常涉及同时向其他用户上传。
内部通信显示,Meta的员工确实使用了BitTorrent下载LibGen,这意味着Meta不仅可能接触了盗版材料,还可能将其分发给其他人——根据版权法,这已被明确界定为非法行为,无论法院对使用版权材料训练生成式人工智能的决定如何。
(Meta声称其“采取了预防措施,不‘传播’任何下载的文件”,并且“没有任何事实表明”它将书籍分发给了其他人。)OpenAI的下载方式目前尚不清楚。Meta的员工在其内部通信中承认,使用LibGen训练Llama存在“中高法律风险”,并讨论了各种“缓解措施”以掩盖他们的活动。
一名员工建议开发人员“删除明确标记为盗版/被盗的数据”并“不要对外引用任何训练数据的使用,包括LibGen”。
另一名员工讨论了删除任何包含ISBN、版权、©、保留所有权利的行。Llama团队的一名高级经理建议对Llama进行微调,使其“拒绝回答‘复制《哈利·波特与魔法石》的前三页’这样的查询”。
一名员工评论说,“从公司笔记本电脑上使用BitTorrent下载感觉不太对劲”。
很容易理解为什么LibGen对生成式人工智能公司具有吸引力,因为它们的产品需要大量的文本。LibGen的规模庞大,比Books3(我在2023年揭露的另一个盗版书籍收藏)大得多。
LibGen中的其他作品包括萨莉·鲁尼(Sally Rooney)、珀西瓦尔·埃弗雷特(Percival Everett)、华·胡(Hua Hsu)、乔纳森·海特(Jonathan Haidt)和雷切尔·孔(Rachel Khong)等知名作者的最新文学作品和非虚构作品,以及来自《自然》(Nature)、《科学》(Science)和《柳叶刀》(The Lancet)等顶级学术期刊的文章。
它还包括来自爱思唯尔(Elsevier)和Sage Publications等顶级学术期刊出版商的数百万篇文章。(The Atlantic)
本文由人人都是产品经理作者【AI新智能】,微信公众号:【AI新智能】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!