AI版权战的来临:未解之惑、由来之辨与叙事之争
2026-02-15 21:26:26 · chineseheadlinenews.com · 来源: 大声思考

最近围绕AI视频生成工具Seedance 2.0(由字节跳动开发)爆发了显著的版权争议,核心集中在未经授权使用受版权保护作品进行模型训练及内容生成。华特迪士尼公司发出停止侵权函,指控其模型生成涉及《星球大战》(Star Wars)、漫威(Marvel)等受版权保护角色与世界观内容;好莱坞的电影行业协会Motion Picture Association(MPA)公开谴责Seedance在短时间内大规模层面使用受版权保护素材;美国影视演员工会 SAG-AFTRA 则强调未经许可使用演员肖像与声音的问题;版权利益组织Copyright Alliance发表声明,进一步指出此类生成模式对创作者权益和版权制度的系统性冲击。争议发生在两个层面:一是训练数据是否构成侵权,二是生成内容在法律上究竟应被认定为对原作品的“衍生式再现”,还是在表达层面构成对受保护要素的“实质性相似”。
这场风波不仅是个案冲突,更成为AI生成内容与传统版权体系正面碰撞的最新标志性事件。自2023年以来,版权问题就已经将AI公司置于风口浪尖之上。
生成性AI的兴起引发了一系列关于AI公司如何使用受版权保护的材料的法律争斗,因为许多主要的AI工具是在包括书籍、电影、视觉艺术作品和网站等受版权保护的作品上进行训练的。目前,美国法院系统正在审理数十起相关诉讼,同时在中国、加拿大、英国等其他国家也有国际性的挑战。[1]
这些诉讼代表着最新的反对人工智能的数据叛乱:人们重新认识到,网络信息——故事、艺术品、新闻报道、留言板帖子和照片/视频——可能具有巨大的未开发价值。叛乱的宗旨是“不让机器收割”,而叛乱大军包括作家、演员、画家等人士,还有社交媒体及新闻机构。
《纽约时报》诉OpenAI和微软:人工智能与版权的分水岭
2023年12月27日,《纽约时报》起诉OpenAI和微软,指控它们未经许可使用该报数百万篇受版权保护的文章,帮助训练聊天机器人为读者提供信息并与该报展开竞争。[2]
起诉书有明确的材料证明《纽约时报》的文章与 ChatGPT 的输出之间的实质性相似。以往的类似案例表明,需要证明人工智能输出结果与原始版权材料之间存在实质性相似。《纽约时报》的起诉强调了OpenAI和微软的人工智能产品复制其大量内容的情况,超出了典型的搜索结果片段,有可能构成版权侵权。[3]
《纽约时报》指责说,“被告试图在《纽约时报》的大规模新闻业投资上搭便车”,在未经许可或付费的情况下利用这些投资来构建替代产品。诉讼称OpenAI和微软将报纸的文章编码到它们的语言模型的内存中,以便ChatGPT 和Bing Chat(现在称为Copilot)可以访问和重复这些信息——在一些例子中,聊天机器人向用户提供了《纽约时报》文章的近乎逐字摘录,并且没有适当的引用。而这些文章需要付费订阅才能阅读。
根据诉讼文件中显示的一张图表,《纽约时报》是Common Crawl中用于训练GPT的最大的单一专有数据集。在《纽约时报》之后,代表性较高的新闻机构是《洛杉矶时报》和《卫报》,接着是《福布斯》、《赫芬顿邮报》、《华盛顿邮报》、《商业内幕》、《芝加哥论坛报》、《大西洋月刊》、半岛电视台和NPR。
《纽约时报》提出的版权主张,可以分为三大类。第一类是实际训练过程中的侵权,即OpenAI从网络上抓取了大量数据,它必须制作副本,创建了包括《纽约时报》内容在内的库,这是从《纽约时报》服务器到OpenAI服务器的逐字复制。这些用于训练的材料没有获得许可,因而侵犯了复制权。
第二类是最终形成的大型语言模型本身,可能是《纽约时报》版权作品的副本或衍生作品。需要记住,模型基本上是一个非常庞大的统计集合——相当于1.76万亿个数据点。[4]这个主张比较复杂,有些人会说,这根本不属于版权的范畴,因为它是事实集合,而不是表达。但也有另一种理论,认为它可以被视为衍生作品,因为它在字面上是从版权作品中推导出来的。
第三类是内容的精准复制,即ChatGPT输出了《纽约时报》文章的逐字或接近逐字的文本,这是一种单独的版权侵犯行为,比仅仅指控人工智能的输出本身就是侵权作品更为有力。这也是《纽约时报》诉讼的重点。
从象征意义上讲,这起案件意味着一场模式之间的冲突:劳动密集型的人类新闻采集与人工智能按键式信息生产。但在法律上,此案却代表着不同的东西:已有法律和新兴技术之间的经典差距。
微软的律师在法庭文件中写道:“在本案中,《纽约时报》利用它的影响力和扩音器,挑战最新的重大技术进步——大型语言模型(LLM)。”在他们的描述中,支持ChatGPT的技术就好比录像机、自动钢琴、复印机、个人电脑、互联网或搜索引擎,虽然《纽约时报》持有不同看法,但版权法对大型语言模型的阻碍,并不比对上述技术的阻碍更大。[5]
人工智能公司认为将万事万物放入技术搅拌机中没有什么不可以,媒体公司从未完全接受这一点。它们一直认为,如果科技公司使用媒体作品开展训练或者做一些能产生价值的事情,媒体就有权获得其中的一部分价值。
《纽约时报》总共拥有超过1000万订阅者,并计划在2027年底前达到1500万,但该报表示,科技公司的“非法行为威胁将读者(包括现有和潜在的订阅用户)从《时报》转移出去,从而减少了订阅、广告、许可和联盟营收,而正是这些资金支持《时报》维持其目前的开创性新闻制作水平”。
诉讼中没有提出确切的赔偿要求,但起诉状称,被告应承担与“非法复制和使用《纽约时报》独一无二的宝贵作品”相关的“数十亿美元的法定和实际损失”。诉讼还要求这两家公司销毁任何使用《纽约时报》版权材料的聊天机器人模型和训练数据。
此案将为人工智能公司如何使用受版权保护的材料开创先例。在人工智能应用越来越普遍的时代,高质量、可信赖的人工智能培训资源越来越重要。许多科技业人士希望人工智能系统能够得到更广泛的应用,但版权诉讼可能会减慢一切,因为法律风险构成人工智能公司计划如何以及何时发布新模型的一大因素。
科技公司的抗辩是,它们对新闻公司数据的使用属于美国版权法下的“合理使用”(fair use)。 “合理使用”是一种允许在未经许可或付费的情况下有限使用受版权保护的材料的原则,特别是为了批评、评论、新闻报道、教学、学术或研究等目的。现行美国版权法第107条规定,法院在评估合理使用抗辩时至少要考虑四个因素:
使用的目的和性质,包括这种使用是否具有商业性质或是为了非营利的教育目的;
版权作品的性质;
与受版权保护的作品整体相比,使用部分的数量和实质性;
以及这种使用对版权作品的潜在市场或价值的影响。[6]
在考虑合理使用测试的四个因素时,我们会发现:教育性和非营利性用途更有可能被认定为合理使用。与技术写作或新闻相比,创意作品受到的版权保护更多。被复制作品的数量很重要,被复制材料与原始版权材料之间是否存在实质性相似也很重要。最后,最重要的是,法院还要考虑复制是否会损害被复制作品的当前或未来市场。
《纽约时报》诉讼案的关键法律问题是合理使用原则。OpenAI和微软将很难反驳合理使用测试的最后一点,即它们的产品依赖于《纽约时报》这样的新闻采集企业,必定会对这些企业的利益造成损害。ChatGPT和其他大型语言模型无法到外面的世界去收集和审核新的事实。在可预见的未来,它们只能从已经发布的信息中“学习”。换个角度看,OpenAI和微软需要《纽约时报》和其他新闻机构的存在,才能提供可靠的新闻作为其服务的一部分。因此,从理性和经济的角度来看,它们应该有义务为所使用的信息付费。
在生成式AI领域,《纽约时报》对OpenAI/微软的诉讼案和其他案例表明,法院目前正试图解决人工智能技术对版权、隐私和数据使用法律的复杂影响。大模型带来新的版权纷争,凸显了促进人工智能创新与保护版权之间错综复杂的平衡。
随着人工智能技术越来越多地展现出生成类人内容的能力,人们不禁会问:旧有的版权法,在多大程度上会被人工智能改写?为了充分理解这一点,有必要回顾一下版权的前世今生。
版权的由来:并非奖励作者,而是造福公众
表达早于版权,而版权在印刷机问世之前是未知的。印刷技术带来了知识产权和版权的新概念,因为印刷机能够以中世纪抄写无法做到的方式控制和计量所产生的副本数量。
1450年,当约翰内斯·谷登堡(Johann Gutenberg)的第一台印刷机投入使用时,书籍的机械复制来到欧洲。[7]印刷和其他的社会经济及政治压力,导致欧洲当时的垄断信息市场结构逐渐崩溃。[8]发行成本的下降,加上作品供应量的增加,推动识字率上升,从而增加了对印刷的需求,形成反馈循环。
尽管图书出版业最初以自由市场竞争为特征,但由于运输网络效率低下和进入壁垒过高,逐渐形成寡头结构。纸质图书体积笨重,限制了当地分销渠道之外的传播。市场分割协议和政府特权导致卡特尔化程度的增加。印刷商人为地限制了生产量,以实现垄断利润最大化。技术和基础设施的限制催生寻租行为,将图书出版变成了一个集中的、反竞争的行业。政治和宗教审查制度随后诞生。
英国议会于1709年颁布了《安妮法令》(Statute of Anne),这是第一部现代版权法,首次确立了由政府和法院监管的版权制度,将原本属于出版商的私法版权转变为公法授予的权利,平息公众对私人团体(书商公会)滥用垄断行为的强烈抗议。[9]该法令赋予作者在有限时间内对其作品的专有权,并首次承认作者是版权的主要受益者。图书的价格开始下降,以至于到18世纪末,新兴的美国印刷业无法在价格上竞争。
1783年,美国制宪会议得出结论:“没有什么比一个人的研究成果更能真正属于他自己,文学财产的保护和保障将极大地鼓励天才,促进有益的发现,并推动艺术和商业的广泛发展。”[10]在《联邦党人文集》中,詹姆斯·麦迪逊(James Madison)提出了联邦版权计划的理由,认为鼓励知识传播的公共利益与作者的私有财产权是一致的。[11]
创作艺术可能成本高昂。在互联网出现之前,分发艺术也同样昂贵。历史上,与创意作品的制作和分发相关的高成本,为寻求从自己的劳动中获利的艺术家们带来了挑战。作为回应,版权法作为一种促进艺术创新和传播的手段应运而生,为创作者在有限期限内赋予了对其作品的某些专有权利。
现代版权激励理论提出了艺术家和社会之间的一种简单交换:作为对创作丰富文化景观的原创作品的回报,作者被暂时授予了有限的垄断权利,使他们能够从自己的创作中获利。如果没有这些保护,该理论认为,艺术家将缺乏足够的经济激励来创作,因为无偿的第三方可以自由复制和分发他们的作品。
但版权法从未预见到艺术品在后稀缺市场的出现。生成式人工智能艺术和数字分发现在让机器可以以极低成本创作、复制和分发艺术作品。在无限内容涌现面前,处理能力和存储是唯一的限制。我们也许可以把无限内容的到来称为“艺术奇点”。
法院的早期判例、立法机构和版权管理部门关注的都是艺术的人类特质。如果原创性需要在人类的头脑中先有意图,那么拒绝对机器加以保护就是实现版权法目标的逻辑结果。但是,否认人工智能艺术的版权是人类例外论视角下的审美歧视。艺术并不因为机器创作就停止成为艺术。将版权激励理论严格应用于人工智能艺术是很棘手的。
在此出现了生成式人工智能和作者身份的讨论。生成式人工智能模型的输出并不是人类作者的产物。因而,虽然生成式人工智能系统能够产生新的(也许是新颖的)表达作品,但它们不符合《版权法》的保护条件,因为它们缺乏人类作者和人类原创性。任何生成式人工智能工具的输出都立即进入公有领域。[12]直到最近,才有人声称计算机系统可以拥有作者身份。
此一问题将构成人工智能版权的棘手之处,但计算机是否能成为作者的问题与《版权法》的目的无关。如前所述,版权法的目标是激励创作有益于公众的作品,而不是奖励作者。然而,随着人类和机器创作之间的界限变得模糊,必须重新评估版权政策的手段/目标。如果人工智能系统能够生产有市场价值的作品,那么“奖励”就应该随着效益而来,而不论是否有人类作者存在。与其以创作权为始点和终点,版权原则必须发展,以最大限度地促进公众获得创造力的机会,无论是谁或什么成为作者。
历史上看,广播、电影和唱片的影响,促使美国国会在行业游说之后重写了市场辨则,以有利于已经根深蒂固的市场参与者,进一步实现与行业相关的结构目标。同样,互联网出现之后,版权法也必须进行重大调整,以应对技术进步以及新表达媒介的发明。1998年颁布的《数字千年版权法》(DMCA,Digital Millennium Copyright Act)帮助主要的内容产业和新兴的互联网公司顺利过渡到数字时代。它的重大妥协——为互联网中介提供有限的责任免除,被视为扩大在线访问版权作品,同时遏制未经授权分发的主要机制。避风港(safe harbor)条款改变了在线服务提供商的责任格局。[13]
同样的,讨论生成式AI的版权问题,也离不开竞争逻辑与产业逻辑,这在互联网发展史上屡见不鲜,也即,新的生产方式通过低成本技术手段,打破现有的保护或约束生产要素的规则,要求建立新规则以便更高效地使用要素,从而带来了要素的价值、生产和分配结构的变动。版权过去、现在和将来都是一种以促进科学和实用技艺的方式推进特定产业政策的手段。
有关人工智能版权发展的几点预测
讨论了AI与版权的核心法律问题之后,我们可以对AI版权的未来发展趋势作出预测。
(一)地缘政治可能压倒版权保护
当前,无论在中国、美国还是欧洲,AI均已被视为大国的核心国家利益。它是21世纪的战略推动者,是军事破坏和地缘政治竞争的下一个领域。人们普遍认为,以巨大的经济和安全利益为理由的技术创新竞赛,有可能令早期采用者成为下一个全球领导者。
这就是为什么DeepSeek R1的发布引发了全球AI竞争格局的连锁反应。硅谷甚至有投资者将 R1的发布形妊酞“斯普特尼克时刻”(Sputnik moment),暗指其对美国AI领先地位的冲击,类似于冷战时期苏联成功发射人类第一颗人造卫星“斯普特尼克”时对美国的震撼。[14]
从美国的情况看,它不会让版权诉讼阻碍国内AI发展,尤其是在中国加速推进的情况下。如果基于版权材料训练的AI模型显示出明显更强的能力,政策制定者可能会推动法律豁免,以保护AI公司免于版权责任,就像过去为科技公司提供的保护(例如 DMCA避风港、有关互联网平台的第230条规定)。
与此同时,欧盟通过《人工智能法案》(AI Act)采取了更严格的方式,旨在根据风险等级规范人工智能系统的使用,体现出对以人为本和负责任的人工智能发展的承诺。这可能有助于缓解大国竞争。但如果欧盟的人工智能领导力仅限于提供道德指导方针,而不是在资金、研究和公私合作方面领先,欧盟就有可能陷入空洞的言辞,而它的过度监管则可能会阻碍创新和商业化。
中国正乘着人工智能驱动的转型浪潮,在多个层面上加大对大型语言模型及相关技术的创新和应用支持。有迹象表明,中国的发展可能会降低运行AI模型的成本,从而推动更高的普及率,AI代理和应用将迎来百花齐放的局面。
尽管如此,地缘政治将继续带来不确定性。考虑到美国对中国芯片的禁令和对中国公司的审查,全球AI监管最终可能会趋向于竞争力,而非版权的纯粹性。
(二)全球针对AI训练的版权法规会被重新定义
如果AI真的成为国家竞争的关键,未来数年,我们可能会看到全球范围内针对AI训练的版权法规被重新定义,以确保各国的AI产业能够在竞争中保持优势,不至于因版权诉讼而陷入法律泥潭。
眼下在美国,版权所有者采取强硬立场,针对未经许可使用受版权保护作品的人工智能公司提起诉讼。然而,其他国家选择了更宽松的方式,甚至允许人工智能模型从影子图书馆中找到的庞大数据中学习。这种“版权分裂”可能会带来深远的后果。
以日本为例,2025年2月4日,日本政府宣布计划将日本定位为“全球最AI友好的国家”,并采取比欧盟和其他国家更为宽松的监管方式。[15]此前,日本政府发布的第二份《AI白皮书》指出,随着世界进入一个变革的时期——在技术、服务、利用和监管等各方面更加动态——那些对AI理解最深、最容易实现AI的国家可能会繁荣。对于日本政府而言,这意味着要加强竞争力、最大化利润,并最小化风险。允许公司在不征得许可的情况下使用版权图像和其他数据来训练AI模型的法律,为这一环境增添了更多的吸引力。[16]
日本AI发展的监管框架显著偏向于增长。在朝着这个方向迈进的过程中,东京采纳了一种极简主义的“硬法”(hard law),寻求在能力扩展中最大化创新,而不是采用一刀切的义务或禁令。不过,由于日本的监管体系在伦理问题上被认为不够严格,目前日本的AI公司面临在欧盟和美国市场的出口限制和其他限制。[17]
此外,欧盟可能会加大《数字单一市场版权指令》(Directive on Copyright in the Digital Single Market)对版权的保护力度,但与此同时,也可能在正在制订的《通用人工智能行为准则》(Code of Conduct for General Purpose AI)方面采取包宽松的态度,以确保 AI 发展不受阻碍。和美国一样,英国可能会加快推动“AI 训练数据的版权豁免”(opt-out exception),即允许AI开发者在一定范围内绕开版权限制。
(三)“原创性、创造力和个性”版权叙事走向式微,创作者个体风险增大
一直以来,出版商依靠一种“浪漫的作者创作”理论——强调作者的“创造性和深刻的人性”——来为其诉讼辩护。事实上,《纽约时报》在其诉状开头就强调,“独立新闻对我们的民主至关重要”,并且“越来越稀缺和宝贵”。相比之下,OpenAI则被描述为“一个多亿美元的营利性企业,主要依靠未经授权的剥削版权作品建立”。
在围绕公众利益构建诉讼并将此次争议描绘成“善与恶”的斗争时,《纽约时报》部分借用了特定的版权叙事,这种叙事优先考虑了“原创性、创造力和个性”,这就是学者所称的“浪漫的作者创作”。[18]通过在诉状中强调其记者不可替代的才华、专业知识和努力,《纽约时报》可以将自己打造成为其雇佣的浪漫作家维权的斗士。
问题是,出版商自己并不总是如此崇敬浪漫的作者创作。从理论上讲,OpenAI只需要复制每一篇《纽约时报》的文章一次,然后就可以无限次地使用它们,这看起来并不公平。在美国编剧工会(WGA,Writers Guild of America)罢工期间,编剧们反对的一件事就是公司认为,如果它拥有剧本的版权,就可以用该剧本来训练AI生成未来的剧本。[19]配音演员也有同样的担忧:公司可能不会支付他们为广告、动画等做配音的报酬,而是让他们以最低的薪水录制10小时的随机语句,然后就可以利用这些录音通过AI工具永远使用他们的声音。这种替代性问题确实非常现实。
然而关于谁对谁错的规范性问题并不简单,因为那些担心AI的媒体和文化公司,往往也没有真正公平地补偿自己的内容创作者。举个例子,那些声称AI将摧毁音乐并伤害艺术家的唱片公司,在一美元的利益当中,其实只给他们的艺术家支付5分钱的报酬。
所以,个体的作家、艺术家和演员有很大的潜在风险。并不能够顺理成章地认为,当前与AI开发者对立的大媒体公司,就会把小人物的利益放在心上。至于AI公司,作者们在这场斗争中最现实的期望,也只是从他们那里获得某种形式的支付。但在AI公司仍有可能在法庭上赢得官司的情况下,任何赔偿方案都不会轻易出台。作者们唯一的希望是联合起来,促使法院无法忽视这一问题的广泛性。娱乐行业的罢工已经在某种程度上触及了这一点。
大模型带来的开放获取的便利性注定引发关于作者权益的伦理争议,因为他们往往得不到应有的认可或报酬。同时,生成式AI技术可能会使知识脱离原始语境,并削弱对原创作者的尊重。核心挑战仍然是如何在知识传播和保护创作者权益之间取得平衡,但人工智能公司眼下正在利用知识资源牟利,可能会降低人类智力创造的价值。
结论:AI版权叙事之战
由以上论述可知,从诞生至今,围绕版权已发展出多种叙事,AI版权争论的关键在于,谁能讲述一个更具说服力的故事,来解释 AI的运作方式。
在典型的法律争端中,一旦涉及一个新的技术领域,不同利益相关方将首先围绕不同的比喻展开斗争。对于AI公司来说,他们倾向于将AI训练比作人类的学习过程——就像学徒画家临摹大师作品一样。而反对者则将AI训练描述为一种“机器人灾难”,是披着创新外衣的肮脏算法掠夺——大型科技公司正借助自动化手段实施对艺术的窃取。
不要小看叙事的重要性。美国版权局目前正在就 AI 相关问题征求公众意见,而提交的意见表明,人们对 AI训练是否侵犯版权存在截然不同的看法。由 Techdirt创始人迈克·马斯尼克(Mike Masnick)创立的智库 Copia Institute直言,艺术家无权禁止AI训练其作品,因为他们认为AI训练更类似于“阅读”而非“复制”。他们提交的意见写道:“当我们谈论 AI训练时,实际上是在讨论让软件代表开发者‘阅读’或‘吸收’作品。而版权法并不禁止阅读。”[20]如果法院接受这种“训练即阅读”的类比,那么依赖“训练即盗窃”这一论点的诉讼将很难占据上风。
放眼到AI的整体发展,叙事的影响更加重大。比如,AI公司已经非常成功地推广了一种叙事,即任何试图阻止它们的发展的努力都既天真又荒谬。他们也成功说服了很多国家的政府,在全球AI竞逐中绝对不能落后。这就是在政策、军事和科技专家圈子里几乎普遍认同的观点,即所谓的全球“人工智能军备竞赛”已在进行中,必须不惜一切代价,以便在他人“赶上”之前取得领先。这一人工智能的框架培养了一种以过时的冷战修辞为基础的不安全文化,背后的驱动力完全来自于利润和权力。
不得不说,“军备竞赛”这一概念对于正在到来的人工智能革命来说,过于粗糙和片面。为了避免在政策和政治辩论中陷入这种叙事,国际组织、政府、科技公司、媒体、民间社会和学术界必须转变现有的人工智能的框架,坚持符合伦理的价值观、公平标准和监管条件,以推动负责任的人工智能发展。唯有在这样的框架下,才能保证版权在新技术的不断演化之中,仍能最好地服务公众利益。