英伟达被起诉，用盗版训练大模型成行业潜规则？-墙外头条

“影子图书馆”非法存储并传播海量图书资源，愿意提供付费的“优先级下载通道”，虽满足了大模型开发者对优质数据的需求，但带来了极大的侵权风险；针对诉讼，英伟达提交了正式动议，主张其行为属于“合理使用”

近期，英伟达成为一场AI训练数据版权集体诉讼的被告。

这起诉讼的原告方是五位拥有多部已注册版权作品的作家。起诉书指控英伟达在使用NeMo Megatron框架开发其下一代大语言模型时，使用了包含原告版权作品的盗版图书馆的数据集，这些盗版图书馆也被称为“影子图书馆”。

NeMo Megatron是英伟达开发的一个用于构建、训练和部署大语言模型的端到端框架。

原告在美国加利福尼亚北区联邦地区法院提起诉讼。2026年1月31日，英伟达提交了正式动议，认为原告未能提供足够的证据证明该公司存在侵权行为，要求法院驳回原告起诉状，并主张其行为属于“合理使用”。法院已安排在2026年4月2日举行听证会，审理英伟达提出的动议。

起诉书提供的内部记录显示，英伟达面临着OpenAI的竞争压力，为了在2023年开发者大会上展示其领先的技术，不惜通过“影子图书馆”获取数百万本盗版图书来训练其大语言模型。

此外，起诉书还指出，英伟达向其客户提供工具和脚本，鼓励并协助他们下载盗版数据集。

大模型热潮之下，陷入训练数据版权纠纷的不止英伟达，OpenAI、xAI、Anthropic、Meta等人工智能巨头也先后遭遇诉讼。在一起侵权案件中，Anthropic曾同意支付至少15亿美元达成和解，可能创下版权赔偿金额纪录。

英伟达高层批准盗版合作？

训练数据的质量与数量对大模型开发起着关键性作用，图书可以提供充足的数据量，在行业内被视为高质量的训练数据。对于大模型开发者而言，“影子图书馆”的数据更方便易得，满足了训练中对图书类数据的需求。

起诉书显示，英伟达发布了多个NeMo Megatron系列大模型。根据其在Hugging Face网站上的描述，这些模型是在非营利研究机构EleutherAI发布的The Pile数据集上训练的。

The Pile包含一个名为Books3的子集，该子集源自“影子图书馆”Bibliotik，包含约19万本图书。

除了使用The Pile，英伟达还被指控直接与“影子图书馆”直接合作，使用盗版图书资源训练大模型，其中包括全球最大的“影子图书馆”Anna’s Archive。

Anna’s Archive建立于2022年11月，正值知名电子书库Z-Library遭到美国政府大规模封禁及创始人被捕之际，旨在整合Z-Library、Library Genesis (LibGen）、Open Library和Sci-Hub等多家影子图书馆的资源，实现知识的“永久备份”。2026年1月，美国俄亥俄州联邦法院下达永久禁令，命令其必须删除所有抓取的全球最大的图书馆目录数据库WorldCat的数据。

起诉书披露了英伟达与Anna’s Archive沟通协商的全过程。内部文件显示，英伟达获取盗版图书最直接的原因是行业内激烈的竞争。2022年9月，英伟达发布了NeMo Megatron系列大模型。此后的一年间，OpenAI推出的ChatGPT大获成功，使得投资者对人工智能的关注度升温。因此，2023年秋季的年度开发者大会被英伟达认为是一个重要的时间节点，在此次大会上发布性能领先的大型语言模型才能更好地应对激烈的竞争态势。

起诉书显示，在为内部代号“NextLargeLLM”“NextLLMLarge”及“Next Generation LLM”（以下统称NextLargeLLM）的项目获取数据时，英伟达高度聚焦于图书语料库。2023年8月，英伟达与多家图书出版商洽谈，试图快速获取图书数据资源，不过，这一需求遭到了拒绝，并未达成数据授权协议。

为了解决对图书资源的迫切需求，英伟达方面转而致函Anna’s Archive，意图了解后者数据“高速访问权限”的具体形式。Anna’s Archive则在回函中声明，鉴于其盗版资源是非法获取的，建议英伟达内部确定可以合作后再告知和推进。

在联系Anna’s Archive后的一周内，英伟达管理层便迅速批准了双方的合作计划。此后Anna’s Archive向英伟达提供了数百万本盗版图书数据的访问权限，总量约500TB。

起诉书称，除了Anna’s Archive和The Pile，英伟达还下载了来自其他“影子图书馆”的图书资源，包括Z-Library、LibGen和Sci-Hub。

Z-Library曾因书籍更新极快、用户体验好而迅速崛起。2022年11月，美国联邦调查局查封了Z-Library超过200个核心域名。两名俄罗斯籍创始人在阿根廷被捕，并面临洗钱和侵犯版权的刑事指控，美国政府目前正寻求将其引渡。此外，美国、奥地利、德国、印度等国法院多次下令域名注册商注销其域名。

Library Genesis被称为“影子图书馆”的鼻祖。2017年，美国纽约法院判决Library Genesis赔偿出版商爱思唯尔1500万美元。2023年，多家美国教科书出版商再次起诉LibGen，要求其移交域名或将其从互联网上彻底抹除。

Sci-Hub专注学术论文，目前英国、法国、德国等国家的法院已下令所有主要互联网供应商（ISP）封锁Sci-Hub。Sci-Hub自2020年底起已基本停止大规模上传新论文。

2024年2月，在与Anna’s Archive达成合作四个月后，英伟达发布了当时旗下最强大的大模型Nemotron-4 15B。公开资料显示，Nemotron-4 15B拥有150亿参数，使用了8万亿文本标注数据进行预训练。英伟达方面并未披露该大模型的训练数据来源，不过曾公开表示该模型训练数据中70%来自“英语自然语言”数据集，该数据集本身包含4.6%的图书内容。起诉书认为，据此推算，英伟达的训练数据需包含数百万册图书。除非使用了盗版资源，否则该公司不可能获得足量的图书数据。

此外，起诉书显示，通过NeMo Megatron框架和BigNLP平台，英伟达向客户提供了自动下载并预处理The Pile数据集的脚本。英伟达还向客户Persimmon AI Labs和亚马逊提供了类似的下载和处理The Pile数据集的协助。

大模型训练需求撑起了盗版生意？

“影子图书馆”非法存储并传播大量高质量版权内容，也愿意为大模型开发者提供付费的“优先级下载通道”。

Anna's Archive在其官网表示，“大语言模型依赖高质量数据才能蓬勃发展。我们拥有全球规模最大的图书、论文、期刊等资源，这些正是最高质量的文本资源。我们提供高速的企业级访问权限，以换取数万美元级别的捐赠。”

这一商业模式也为“影子图书馆”争取了一线生机。Anna's Archive在官网表示，不久前，“影子图书馆”濒临消亡。因诉讼压力，收录大量学术论文盗版资源的Sci-Hub已停止接收新作品。“随着人工智能崛起，几乎所有开发大语言模型的企业都联系我们获取数据训练。我们已为约30家公司提供高速访问权限。”

但使用盗版图书资源为大模型公司带来极大的侵权诉讼风险。美国版权局2025年5月发布的《版权与人工智能》系列报告指出，数据收集和预处理阶段涉及下载、转换和修改大量受版权保护的作品，无论数据来源是否为公开网站，均可能构成对复制权、编辑权、改编权的多重侵害，在商业用途情形下风险尤为突出。

2025年，美国法院对两起版权人起诉大模型公司使用盗版图书资源的案件作出判决。

2025年6月23日，美国北加利福尼亚地区法院就Andrea Bartz等作家起诉Anthropic的版权侵权诉讼案作出关于合理使用的裁决，认定使用受版权保护的作品进行人工智能训练属于合理使用。不过，从Library Genesis和Pirate Library Mirror等网站下载超过700万本“明知是盗版”的电子版图书的行为，则“本质上、不可救药地构成侵权”，无法被合理使用原则所豁免。同年9月，有媒体报道称，Anthropic已同意支付至少15亿美元达成该案的和解协议。美国加州一家法院已初步批准了这一协议。这也将成为历史上有公开报道的最大规模版权赔偿案。

2025年6月25日，同样是美国北加利福尼亚地区法院就Richard Kadrey等作家起诉Meta Platforms使用盗版图书训练大模型Llama构成版权侵权案作出简易裁决，判决同样认定Meta的行为构成合理使用。不过，法院判定Meta获取并使用盗版作品的行为不单独构成侵权，因为Meta将该等作品用于AI大模型训练目的，此种使用属于转换性用途。

具体而言，Meta使用原告图书的目的在于训练其大模型Llama，该大模型可生成多样化文本并执行广泛的功能，而原权利作品的用途主要在于供人阅读以获取娱乐或教育。因此，Meta使用原告图书的行为具有“进一步目的”和“不同性质”，即高度转换性。鉴于复制行为与Meta转换性使用目的之间的关联，其复制量也具有合理性和必要性。且在市场影响上，原告未提供任何其市场被影响或稀释的有效证据。

但值得注意的是，法院限定了裁决的效力范围，声明该案“不构成集体诉讼”，且“不构成Meta使用受版权保护材料训练语言模型合法的判例”。

训练数据版权问题已引发更多诉讼

Anthropic案之后，更多作家或版权方也在发起诉讼。2025年12月22日，美国《纽约时报》记者、作家约翰·卡雷鲁联合另外五名作家，向加利福尼亚州联邦法院提起诉讼，将谷歌、OpenAI、xAI、Anthropic、Meta和Perplexity六家公司告上法庭，指控其未经许可使用受版权保护的图书训练人工智能系统。

原告方明确表示，不寻求发起人数更多的集体诉讼，因为那将对被告有利，对方可能会试图与大批原告达成统一的和解方案，从而一次性解决多项索赔。诉状称：“大语言模型公司不应如此轻易地以极低价格清偿成千上万项高额索赔。”

早在2023年12月，《纽约时报》就联合其他八家媒体机构，指控微软、OpenAI使用媒体刊登的文章训练人工智能模型，侵犯其版权。

2025年3月，美国纽约南区法院驳回OpenAI要求直接驳回案件核心指控的动议，允许关键争议进入下一阶段，OpenAI使用《纽约时报》新闻内容训练其模型是否构成版权侵权将进入实质司法审查阶段。业界认为，这一程序性裁决对原告方极为有利，意味着法院认为《纽约时报》的指控具有足够的法律基础，值得进行全面的证据审查和实体裁判。2025年11月，OpenAI被要求提供用户日志，这一证据对于证明训练数据的具体使用方式，以及输出内容的相似性具有重要价值。

一位不愿具名的律师表示，目前美国法院对此类AI版权问题的态度非常谨慎，避免以单一案件过早确立具有普遍约束力的规则。他认为，随着更多大模型训练数据版权案件出现，裁判结果将取决于争议事实的认定以及技术细节的鉴定。

不过，2025年5月，《纽约时报》与亚马逊达成许可协议，授权亚马逊使用其新闻内容用于AI产品增强与模型训练。前述律师认为，通过授权合作而非诉讼对抗解决争议，或许可以成为业界通行的解决方案之一。

此外，出版商群体也在2025年启动维权。包括康泰纳仕集团、《大西洋月刊》、Politico和Vox在内的多家大型出版商起诉人工智能初创公司Cohere，指控其未经授权使用超过4000部受版权保护的作品训练大型语言模型，并在绕过出版商网站访问的情况下，擅自向用户发布大量文章内容或整篇文章。

在中国，爱奇艺诉MiniMax案同样引发关注，这是国内视频平台首例AI训练数据诉讼。2025年1月，有媒体报道称，爱奇艺已向上海市徐汇区人民法院提起诉讼，指控MiniMax在人工智能模型训练及内容生成流程中涉嫌侵犯其著作权，索赔金额约10万元人民币。爱奇艺方面回应称，事件仍处于法律程序中，无法对外披露更多信息。

同时，MiniMax在2025年遭遇了好莱坞巨头的集体诉讼。迪士尼、环球及华纳兄弟在美国加州联邦法院对其旗下的海螺AI提起版权侵权起诉，索赔金额最高为7500万美元（约合52.8亿元人民币）。MiniMax在2025年底的招股书中首次否认了版权指控，认为使用相关版权内容用于训练AI属于合理使用，7500万美元的索赔金额被“明显高估”。该公司主张，具备法定赔偿资格的独立作品数量远低于原告主张的规模，并强调在收到诉状后，已采取技术措施防止相关侵权输出。目前诉讼程序正在进行中。