专业文章

李凤翔、蔡成思|训练AI,能否“合理使用”版权数据?——不同法域裁判视角的认定逻辑

2026-02-04
分享到

在此前的系列文章中,我们系统讨论了AI创作物的可版权性问题,而这仅是AI技术发展衍生的诸多法律问题之一。AI大模型的研发与运作,离不开海量训练数据的支撑,训练数据是AI大模型成长和运作的基础。没有高质量的训练数据,AI大模型就无法准确地识别模式、做出决策。Open AI公司之前推出的AI大模型ChatGPT 4.0版本(GPT-4o)的训练数据集体量约为13万亿个token,这一庞大的数据集为该模型的预训练提供了充足的数据支撑。但数据并非凭空产生有,用于AI大模型训练的数据集自有其本身来源。


由此产生的法律问题是,将相关数据用于大模型训练,是否构成合理使用?


当前,AI大模型训练所使用的数据来源复杂多元,主要包括:包括开源数据集、人工标注数据、企业内部的数据、合成数据等。在这些类型数据中,都有可能包含受到版权保护的作品,例如书籍、图像、视频等,而AI大模型开发者在收集、处理这些包含版权作品的数据用于对大模型的预训练时,会不可避免地对这些作品进行复制(即将互联网上的版权作品复制到本地硬盘介质中)。与此同时,各国在其著作权相关立法中都赋予了著作权人对其作品享有各项专有权利,其中通常包括对作品的进行复制的权利。因此,在没有法定豁免的情形下,大模型开发者应当在获得权利人许可/授权的情形下方能复制这些作品用于大模型预训练。然而,如果要求AI大模型开发者逐一取得作品权利人的相应授权,势必极大增加开发者的训练成本,也可能阻碍人工智能技术的发展。著作权人专有权利与AI大模型开发者对训练数据的需求之间似乎存在天然矛盾,而这也成为了新技术背景下亟待解决的法律问题。


各国主流的著作权立法中都规定了著作权保护的法定豁免情形,其中最为典型的场景即“合理使用(fair use)”。以我国《著作权法》为例,合理使用是指是在法律允许的情况和规定的条件下,可以不经过著作权人许可、不向其支付报酬而使用他人的作品。我国《著作权法》第24条中列举了13种法律允许的“合理使用”情形,其中未明确规定AI大模型训练或机器学习属于“合理使用”范畴,但在目前世界范围内已产生的AI训练数据侵权纠纷中,被告方多以“合理使用”原则作为抗辩。然而,在不同法域下,裁判机构在审理此类案件时,对于“AI大模型训练是否构成对版权作品之合理使用”这一问题存在不同的裁判观点。本文试图通过对于几个不同法域下相关典型案例的介绍和对比,探究AI大模型训练数据版权合理使用的认定问题。


中国:上海某文化发展有限公司诉杭州某智能科技有限公司著作权侵权及不正当竞争纠纷案


案情简介


原告系奥特曼系列形象的知识产权权利人。被告运营某AI平台,该平台提供Checkpoint基础模型和LoRA模型,支持图生图、模型在线训练等诸多功能。在该平台首页及“推荐”“IP作品”项下存在有关奥特曼的智能生成图片以及LoRA模型,可应用、下载、发布或分享链接。奥特曼LoRA模型系由用户上传奥特曼图片,选择平台基础模型,调整参数进行训练后生成。其后,其他用户可通过输入提示词,选择基础模型、叠加奥特曼LoRA模型进行训练后生成与奥特曼形象实质性相似的图片等。


原告诉称


被告通过对输入图片进行训练后生成的方式将侵权图片和侵权模型置于信息网络中,侵害其信息网络传播权;被告利用生成式人工智能技术定向训练奥特曼LoRA模型和生成侵权图片,构成不正当竞争。故诉请被告停止侵权并赔偿经济损失30万元。


被告辩称


某AI平台通过调用第三方开源模型代码,结合平台使用场景需求进行技术整合和应用部署等工程化操作,集合成可供用户直接应用的生成式人工智能平台,但平台不提供训练数据,系由用户将图片素材投喂给模型进行学习训练后生成图片,故其属于“避风港”规则下的平台免责范围,不构成侵权。


在本案中,一审法院以“被诉行为是否构成侵害信息网络传播权、是否构成不正当竞争以及民事责任的确定”为案件争议焦点,并结合案件事实展开了充分论述。最终一审法院认定:



1)被告AI平台应当知道网络用户利用其服务侵害信息网络传播权而未采取必要措施,其未尽到合理注意义务,主观上存在过错,构成帮助侵权;


2)被告AI平台所提供服务并未违反诚信原则和商业道德,且技术本身具有中立性,如果用户按照平台服务协议在尊重他人知识产权的前提下进行创作,不会侵犯著作权人权利和社会公共利益,且反不正当竞争法作为补充性保护法律规定,不应对侵权行为进行重复评价,因此被诉行为不构成不正当竞争;



一审判令被告立即停止侵害原告涉案奥特曼作品信息网络传播权的行为,赔偿原告经济损失及合理费用共计30000元。二审法院驳回了原告上诉,并维持原判。


虽然本案的主要争议焦点在于被告被诉行为是否构成信息网络传播权侵权以及是否构成不正当竞争,但杭州互联网法院在其一审判决书“民事责任的确定”部分中关于大模型训练数据合理使用的分析,为后续类似案件中如何认定AI大模型训练数据是否构成合理使用提供极有价值的判断标准。


一审法院在其判决书中提出了对于AI大模型侵权认定的裁判尺度:“对于大模型的数据输入、数据训练行为的侵权认定,宜采取相对宽松包容的认定标准,对大模型的生成内容输出、生成内容使用行为的侵权认定,则宜采取相对从严的认定标准。”


此外,一审法院在判决书种的分析实质上为用户个人提供数据训练AI大模型能否构成合理使用确定了判断标准:如果用户个人向AI大模型提供包含版权作品的训练数据满足以下条件时:



1)在训练阶段使用他人作品的目的是为了学习分析其思想感情、语言特征、特色风格,便于后续的转换性创作,而非为了再现版权作品的独创性表达;


2)数据训练只是对语料数据作结构特征分析时暂时保留了在先作品,数据训练及生成过程中也未将在先作品展示给公众;


3)无证据证明该训练行为已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益。则该向AI大模型提供包含版权作品用于模型训练的行为可以被认定为合理使用。



同时,在同一年广州互联网法院所判决的(2024)粤0192民初113号案中,法院对于同样涉及AI生成内容对奥特曼形象的侵权争议做出了不同的认定,认为提供生成式AI服务的平台构成直接侵权。究其原因,是该案中被告公司通过自有平台(Tab网站)直接提供生成服务,用户仅需输入“生成奥特曼”等指令即可输出与原作实质性相似的图片,而无需自行上传图片进行模型训练,故而在该案中法院并未深入分析数据训练合法性的问题。


image.png


由此我们可以看出当前我国司法裁判观点中,对于AI大模型发展总体持包容鼓励的态度,在AI大模型数据输入、训练端的侵权认定采取宽松标准。然而,需要特别注意的是,本案中的裁判观点并不应该不加区别地适用于任何类型的AI大模型数据训练情形。本案中,向AI大模型提供训练数据是用户个人行为,并非AI大模型开发者或平台运营者自行使用版权方作品用于模型训练,我们并不能仅从本案中得出“商业用AI大模型使用他人版权作品训练模型构成合理使用”的结论。关于商业用AI大模型数据训练情形,爱奇艺已于2025年1月向上海市徐汇区人民法院正式提起诉讼,指控国内AI初创企业MiniMax在AI模型训练及内容生成流程中涉嫌侵犯其版权。该案件目前仍在审理中,或许该案最终的裁判结果可以商业用AI大模型训练数据版权合理使用问题带来新的裁判观点。


二、美国:Thomson Reuters Enterprise Centre GmbH v. Ross Intelligence Inc.


案情简介


Westlaw是一个大型法律研究平台,用户需付费访问其内容,包括案例法、州和联邦法规、州和联邦规章、法律期刊和专著等。该平台还包含编辑内容和注释,如案件摘要和关键号码系统(Key Number System),后者是一种用于组织内容的数值分类法。平台中可版权内容的著作权由Thomson Reuters(汤森路透)享有。Ross Intelligence(罗斯智能公司,以下简称Ross)为训练其AI法律检索系统,需要包含法律问题和答案的数据库,因此向Thomson Reuters寻求使用Westlaw内容的许可,但因双方存在竞争关系而被拒绝。随后,Ross与LegalEase达成协议,获取了Legal Ease利用Westlaws数据所创建的以“批量备忘录”(Bulk Memos)形式存在的训练数据,随后ROSS将Legal Ease提供的数据转换为可用于机器学习训练的数据用于训练其AI模型。


Thomson Reuters遂以著作权侵权为由提起诉讼,指控ROSS侵害了其21,787项法律批注、500项判例的编辑内容及关键号码系统的著作权。


争议焦点


1. 法律批注、关键号码系统等案涉作品是否具备原创性进而可享有版权,即权利基础问题。


2. ROSS是否存在复制作品中具有原创性的组成部分的行为,即侵权行为问题。


3. ROSS对AI模型训练数据的使用行为是否构成合理使用抗辩。


2025 年 2 月 11 日,法院作出简易判决(即summary judgment),认为部分涉案作品的侵权事实清楚,无需陪审团审理,可认定ROSS公司未经授权使用汤森路透公司Westlaw数据库中的法律批注(Headnotes)训练其AI法律研究工具构成直接著作权侵权,并驳回ROSS的合理使用(fair use)抗辩。


本文主要关注该案的第三个争议焦点,即ROSS利用Thomson Reuters拥有版权的训练数据训练其AI模型是否构成合理使用。在该案的最新判决中,特拉华州地区法院就“商业用AI大模型训练数据能否构成版权合理使用”提出了清晰明确的判断标准。即在认定是否构成合理使用时,应通过四个方面的要素来进行判断:


使用目的和性质;

受保护版权作品的性质;

被告使用版权作品的数量和实质性;

使用版权作品对版权作品潜在市场或价值的影响;


法院综合权衡原被告双方在各项判断要素中的优势情形后,认定Thomson Reuters在最重要的两个判断要素中(要素一和要素四)中占据优势,故而支持原告、驳回了Ross的合理使用抗辩。判决书中,法院对四项判断要素的具体分析如下:


要素一(使用目的与性质):如果ROSS和Thomson Reuters使用法律批注用于非常相似的目的,并且ROSS的使用行为是商业性的,那么这一标准要素倾向于不支持合理使用。


要素二(受保护作品的性质):法院认为,Westlaw法律批注虽然具有“最低限度的创造性”,但其有限的创造性低于小说家或艺术家从零开始创作的文学或艺术作品,因此第二要素偏向ROSS。但法院也同时强调,第二要素“在合理使用争议的判定中很少起到重要作用”。


要素三(使用的数量与实质性程度):ROSS提供给终端用户的输出是司法意见,而不是Westlaw法律批注,ROSS并没有将Westlaw法律批注公开提供给用户,所以第三要素有利于ROSS。


要素四(对作品潜在市场及价值的影响):在先前的判决中,法院认为ROSS的使用行为可能是“转化性的”(即指对来源作品进行派生使用时或具有再生产功能,或与著作权人对原作品内容的使用方式、功能或目的截然不同的作品使用行为),因此将这个要素留给陪审团判断。但法院在最新建议判决中修正了自己的观点,认为ROSS打算通过开发市场替代品来与Westlaw竞争,并且Thomson Reuters是否已将数据用于训练自己的法律搜索工具并不重要,对潜在的AI模型训练数据市场会造成影响就足够了。因此,ROSS的行为可能对于Westlaw现有市场及潜在AI模型训练数据市场产生直接冲击。因此,第四要素有利于Thomson Reuters。


综上,要素一、要素四倾向于不支持合理使用,要素二、要素三则有利于ROSS,但第二要素相较于其他因素的重要性较低,而第四要素的重要性则相对较高。因此,法院在综合权衡后,最终裁定驳回了ROSS的合理使用抗辩。


根据本案的判决思路,使用未经授权的包含版权作品的数据对商业用AI模型进行训练不适用合理使用原则,从而会构成侵权,即便最终AI产品不会向用户直接展示这些版权作品。值得注意的是,法院在本次判决中明确,要素四(即使用行为对版权作品潜在市场及价值的影响)是合理使用认定的核心标准。本案中,法院正是基于 Ross 的训练行为会冲击Thomson Reuters原作品市场及相关潜在市场的认定,作出了倾向于Thomson Reuters的判决。


依照法院的裁判思路,从另一方面考虑,如果数据训练行为可能构成转化性使用(指对来源作品进行派生使用时或具有再生产功能,或与著作权人对原作品内容的使用方式、功能或目的截然不同的作品使用行为,以此产生的内容则相应可以被称为转换性文本),而不会对原作品自身市场或潜在市场造成直接冲击的情形,那么法院是有可能将这种数据训练行为认定为合理使用的。因此,本案的判决结论并非当然可适用于未来所有的AI大模型数据训练情形,但是案件判决中所阐明的合理使用认定标准,可以一定程度上作为AI大模型开发者为避免侵权风险,在对模型训练数据进行筛选时的判断标准。


三、德国:Robert Kneschke v. Laion e.V.


案情简介


原告Robert Kneschke是一名德国摄影师,拥有大量摄影作品的版权。被告Laion e.V.,是一个非营利组织,其运营的项目涉及收集和处理大量公开可用的图像数据,用于AI模型的训练。原告发现被告在未经其同意的情况下将其摄影作品收入了免费的人工智能数据集并用于AI模型训练。原告将被告诉至德国汉堡地区法院,要求被告从数据集中删除其作品。


法院在裁判过程中同样面临着使用他人版权作品进行数据训练是否构成合理使用的问题。在德国著作权法下并未有如中美相关立法中“合理使用”概念的明确约定,但德国著作权法第24条中规定了免费使用(free use)制度,即“通过自由使用他人作品而进行创作的个人作品,可以不经作品使用者的同意而出版和使用”。并在著作权法中列举了具体的可适用情形,其中第60d条规定著作权法规定的关于“免费使用”的情形:用于科学研究目的的文本和数据挖掘。


《德国著作权法》第60d条 


(1) 根据以下规定,允许为科学研究目的进行文本和数据挖掘(第 44b 条第(1)款和第(2)款第 1 句)的复制。


(2) 研究组织有权进行复制。研究组织是指大学、研究机构和其他从事科学研究的机构,条件是:1. 追求非商业目的,2. 将所有利润再投资于科学研究,或3. 根据国家批准的任务为公共利益服务。


被告援引第60条的规定辩称其收集包含原告版权摄影作品的行为是出于非商业目的,且最终形成的数据集亦是免费在网络上开放,应当构成德国著作权法下的例外保护情形。法院最终认可了这一观点,认为案涉数据集在网上免费向所有研究人员开放,其行为是透明的、非商业性的。被告对版权作品的使用符合《德国著作权法》第60条d规定的情形,因此原告的诉讼被驳回。


从德国汉堡地区法院对该案件的判决思路可以看出,法院对于非出于商业目的使用他人版权作品对AI模型进行数据训练行为倾向于认定为“合理使用”或“免费使用”,但前提是,使用人应当免费向公众公开其研究成果以及不能与任何可能从研究中获益的营利性组织存在关联。


总结:通过对中国、美国、德国三国典型案例的分析和对比可以看出,“合理使用”这一著作权保护例外情形确实是AI大模型开发者目前应对训练数据版权纠纷时较为有力的抗辩角度。但从各国的案例上来看,法院对于“商业用AI大模型在无授权情形下使用他人版权作品进行训练能否构成合理使用”这一问题还没有清晰的结论,即便美国法院在案例中判定Ross的行为构成侵权,也同样仅限于案件中原被告所处商业领域相近的情形,并不能等同于通用AI大模型数据训练背景下的结论。


从商业用AI大模型开发者(即企业)角度来看,“合理使用”在当前阶段并不能成为其未经授权获取训练数据行为的“免死金牌”。在法律或裁判机构尚未就该命题做出明确规定前,企业仍应以相对保守的态度,尽量通过合规的渠道获取训练数据中包含作品的权利人授权。与此同时,AI平台企业也应当关注到平台内的数据风险,对于用户个人上传的数据进行严格审查,及时下架或删除明显侵犯他人著作权的内容。同时还可以在用户协议中加入对用户上传数据知识产权风险的提醒,以此降低企业自身合规风险。