数据训练的尺度在哪？AIGC平台：输入环节的责任、风险与合规

数据训练的尺度在哪？AIGC平台：输入环节的责任、风险与合规｜AI X 文娱

2026-05-22

分享到

引言：随着人工智能技术的快速迭代，生成式AI平台、AI剧集等新形态AI产品大量涌现，呈现爆发式增长，AI生成内容（“AIGC”）平台作为核心载体，其责任边界、风险防控与合规建设已成为全球监管与行业关注的焦点。

但技术应用与产业扩张的背后，AI数据训练的合规性，以及平台提供AIGC涉及的侵权责任等相关争议与法律风险日益突出。而不同法域的裁判倾向存在显著差异，进一步增加了AIGC平台的合规难度。

本文立足多法域视角，梳理主要法域治理规则差异，剖析AIGC平台输入与输出环节的核心责任与风险，探索合规路径。本篇将重点讨论AIGC平台输入环节的部分。

AI TECHNOLOGY

一、AIGC平台侵权责任风险

AIGC平台服务的侵权内容提供行为，并非传统互联网平台模式下简单地将侵权内容上传至服务器使得用户可以访问，而是基于数据训练-AIGC生成的动态生成过程：平台通过收集各类数据（含可能侵权作品）完成模型训练，再根据用户指令，由模型实时生成含侵权元素的内容并向用户提供。

与传统静态内容传播不同，侵权内容并非预先存储的传播，而是于用户交互时动态生成。传统模式下，平台控制的是内容上传与删除，而AIGC平台的控制核心是训练数据筛选、算法设置及生成内容审核——若训练数据含侵权作品，那模型即有可能复刻、衍生侵权内容，即便平台/用户未主动上传侵权作品，也可能因训练不当间接导致侵权输出。这使得AIGC侵权行为的认定更为复杂。

因此，AIGC平台的侵权责任风险主要可归纳为输入与输出两个环节，即数据训练与内容生成。

AI TECHNOLOGY

二、AI 平台输入环节风险——数据训练

海量训练数据是AI平台大模型研发与正常运作的核心支撑，更是模型实现迭代成长、发挥功能价值的基础前提。如缺乏高质量的训练数据，AI大模型便难以有效完成模式识别、决策判断等核心操作，其功能发挥也会受到极大限制。以Open AI公司推出的ChatGPT 4.0版本（GPT-4o）为例，该模型的训练数据规模已达到约13万亿个token，正是这一海量数据集的支撑，才为其预训练环节提供了充足的素材，保障了模型的性能与输出质量。

在数据训练环节，AI平台不可避免地需要抓取大量涉及第三方版权的内容，抓取后会对数据进行清洗、去重、标注等预处理，随后将这些经预处理的数据存储于服务器中，作为模型训练的样本库，再通过算法让模型从服务器存储的样本数据中学习核心特征与表达逻辑，转化为自身生成能力，为后续响应用户指令提供支撑。

此处数据训练可能存在以下两项主要风险：①爬取数据构成不正当竞争；②训练数据构成版权侵权。

1．爬取数据构成不正当竞争

2025年新修订的《反不正当竞争法》第十三条对非法爬取数据作出了规定：

经营者不得以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式，获取、使用其他经营者合法持有的数据，损害其他经营者的合法权益，扰乱市场竞争秩序。

司法实践中，爬取数据构成不正当竞争已经基本形成了统一的裁判思路，法院会考虑以下因素来判断爬取数据行为是否构成“实质性替代”：

(1)是否违背了商业道德与诚实信用原则；

(2)是否损害了数据权利人的经营性利益；

(3)是否破坏了数据权利人的商业模式，从而破坏市场竞争秩序。

在近期审结的雪某公司诉航某公司等AI平台抓取数据不正当竞争纠纷案，可以看到同样的裁判思路。

AI数据抓取不正当竞争案

案情简介

雪某平台用户在雪某平台上基于平台提供的真实证券市场行情数据自主设立组合，成为组合的主理人。雪某平台根据组合主理人对其“组合”调仓情况，按照真实的股票市场行情和交易方式计算组合收益，编辑整理不同的板块，形成雪某公司主张的雪某组合调仓数据集合。深圳航某公司的AI理财平台采用AI技术手段自动抓取雪某平台的调仓数据到AI理财平台，然后在AI理财平台有偿提供克隆雪某组合和自动跟单交易服务，使投资者无需登录雪某平台、无需自行判断即可跟随雪某组合调仓进行自动交易。雪某公司遂诉至法院。

法院判决

基于平台海量组合数据进行的大数据分析产品，是对海量用户数据进行加工处理后的衍生数据，已无法与用户生成的数据相对应，具有独立的数据价值，该种经营数据权益应当由经营平台者享有。

运用AI技术手段爬取他人平台模拟真实股票交易的程序化、量化证券交易数据后，为自己会员提供自动化、程序化下达真实股票交易指令的“克隆”服务，构成不正当竞争。

据此，法院判决停止侵权、消除影响，并赔偿损失1950万元及维权支出33万余元。

其中，深圳中院关于“实质性替代”的论述如下：

航某公司注册专用雪某账号，通过规避技术保护措施、高频次请求数据接口的方式抓取调仓数据；其利用该数据提供克隆交易服务，属于“搭便车”“不劳而获”，直接替代雪某平台的下单功能，导致原告用户流量、交易机会减少，且该自动跟单功能属于程序化交易，未遵守证券交易所监管规定，还可能损害投资者利益、扰乱市场秩序。

当然，此前关于爬取数据构成不正当竞争的案例已有多起。例如微某公司诉创某公司不正当竞争纠纷一案中，北京知识产权法院认为：大量抓取短视频平台数据集合构成不正当竞争；又如微某公司诉淘某公司不正当竞争纠纷一案中，未经授权抓取用户数据构成不正当竞争。

因此，AI平台若未经授权非法爬取数据的，如构成“实质性替代”的将构成不正当竞争。

2．训练数据构成版权侵权

AI平台在收集、训练数据的过程中，不可避免地对涉及第三方版权作品进行数字化的复制（即将版权作品复制到本地硬盘介质中）；而复制权一般为各国立法中著作权的专有权利之一。

以我国《著作权法》为例，第十条规定：

复制权，即以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利。

这意味着，在没有法定豁免的情形下，AI平台应当在获得权利人许可的情形下方能复制这些作品用于AI平台大模型数据训练。正因此，在全球范围内已发生多起关于AI训练数据的版权侵权争议。

在这些案件中，AI平台多以“合理使用（fair use）”作为其核心抗辩理由之一。

合理使用是指，为了保护公共利益，对一些对著作权危害不大的使用他人受保护的作品行为，不视为侵权，该等使用无需取得著作权人许可，也无需支付相应报酬。然而，由于法律的滞后性，各地基本未对AI平台训练数据是否构成合理使用明确相关立法。以我国立法实践为例，《著作权法》第二十四条明确规定的合理使用的具体情形中并未纳入AI平台数据训练、机器学习等。

这就导致各地裁判机构在审理此类案件时，对于“AI平台训练数据行为是否构成合理使用”，均作为版权侵权认定的核心问题加以讨论。

杭州奥特曼第二案

案情简介

原告系奥特曼系列形象的知识产权权利人。被告运营某AI平台，该平台提供图生图、模型在线训练等诸多功能。被告用户上传奥特曼图片，选择AI平台基础模型，调整参数进行训练后生成了奥特曼LoRA模型。其后，其他用户可通过输入提示词，选择基础模型、叠加奥特曼LoRA模型进行训练后生成与奥特曼形象实质性相似的图片等。原告遂向杭州互联网法院起诉，主张被告构成著作权侵权与不正当竞争。

法院判决

一审法院认为，被告不是网络传播内容的提供者，未直接实施受信息网络传播权控制的行为，不构成直接侵权。作为生成式人工智能服务提供者，被告应当知道网络用户利用其网络服务侵害涉案作品信息网络传播权而未采取必要措施，其未尽到合理注意义务，主观上存在过错，应当认定构成侵害原告信息网络传播权的帮助侵权行为。据此，一审法院判决平台停止侵权，并赔偿损失人民币3万元。二审法院维持原判。

在杭州奥特曼第二案中，杭州互联网法院在一审阶段对于AI平台训练数据是否构成合理使用作出了如下较为宽松与鼓励态度的论述：

对于生成式人工智能应持审慎包容的态度，鼓励技术进步和商业发展。生成式人工智能的创设与发展，需要在输入环节引入巨量的训练数据，其中不可避免会使用他人作品。鉴于生成式人工智能在数据训练阶段使用他人作品的目的，原则上应用于学习分析在先作品所表达的思想感情、语言特征、特色风格等内容，从中提取出相应的规则、结构、模式、趋势，便于后续转换性创作新作品。该种使用行为聚合大量作品作为分析样本数据进行提高作品创作能力训练，并非以再现作品的独创性表达为目的，且一般情况下数据训练只是对语料数据做结构特征分析时暂时保留了在先作品，数据训练及生成过程中也未将在先作品展示给公众，因此，一审法院认为，在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下，可以被认为是合理使用。

并进一步明确：从促进生成式人工智能技术发展的角度来看，对于大模型的数据输入、数据训练行为的侵权认定，宜采取相对宽松包容的认定标准，对大模型的生成内容输出、生成内容使用行为的侵权认定，则宜采取相对从严的认定标准，通过分类施策实现发展与保护的平衡。

美杜莎案：上海首例人工智能大模型著作权侵权案

案情简介

原告公司系知名IP《斗破苍穹》系列动漫中美杜莎角色形象的著作权人。

被告公司运营目前国内某头部AI图像生成平台，平台内汇聚了众多类型和主题的AI生图LoRA模型，依托大模型和诸多LoRA模型为用户提供AI在线生图等服务。

被告李某系平台用户，其截取《斗破苍穹》系列动漫中美杜莎形象图片二十余张，做成美杜莎图包。李某使用平台的“训练LoRA”功能，将美杜莎图包作为训练素材投入，生成两款美杜莎LoRA模型。经过平台机审，被告李某将案涉美杜莎LoRA模型发布在自身账号中。其他普通用户使用案涉美杜莎LoRA模型时，通过输入不同提示词，能够生成与美杜莎形象相同或实质性相似的各种图片。

法院判决

金山区人民法院认为，被告李某以商业使用为目的，在素材截取阶段及LoRA模型训练、发布及使用阶段再现在先作品的独创性表达、将“美杜莎”图集和短视频等素材通过网络提供给公众，侵害了原告对“美杜莎”作品享有的复制权和信息网络传播权。据此，法院判决停止侵权，并赔偿损失3万元及维权支出2万元。

在美杜莎案中，法院对于AI模型训练数据持较为严苛的态度：其明确提及了“素材截取阶段及LoRA模型训练”阶段使用在先作品，最终认定被告侵害了复制权。然而可以看到的是，在公开判决结果的公众号文章中，法院并未涉及“合理使用”的论述。其具体原因不得而知，但可以推测，由于本案中被告并非真正的AI平台，而是生成侵权模型的AI平台用户，法院在此情形下倾向于认可数据训练行为即构成复制权侵权，而不构成合理使用。

美国Bartz案与Kadrey案：美国最早针对“训练数据相关的合理使用抗辩”分析的两案

案情简介

a.Bartz v. Anthropic案

以Bartz为代表的多位美国作家通过集体诉讼指控Anthropic在未获得许可的情况下从互联网盗版书库获取了数百万本受版权保护的书籍，并购买了一些正版书籍，拆除装订后扫描成电子文件，存储在可搜索查询的中央图书馆数据库中，随后从中央图书馆中调取数据用于训练其AI模型，侵犯了作者的著作权。

b.Kadrey v. Meta Platforms, Inc.案

包括畅销作家Sarah Silverman在内的13位作者起诉Meta，指控该公司未经许可从“影子图书馆”（如Library Genesis）下载其受版权保护的书籍，用于训练Llama系列大语言模型。原告主张Meta的行为构成直接复制侵权，且不属于合理使用。

法院判决

a.Bartz v. Anthropic案

法院认定：一方面，通过“合理使用”四要素分析，将受版权保护的书籍文本用于训练AI模型本身可视作合理使用，并不直接构成版权侵权。但另一方面，法官认定Anthropic明知且不当地从盗版网站获取了数百万本书籍，这一获取行为本身构成版权侵权。

b.Kadrey v. Meta Platforms, Inc.案

根据“合理使用”四要素分析，法院认为AI模型训练属于高度转化性使用，且原告未能证明AI训练直接替代原市场，亦未证明潜在许可市场受损，最终认定Meta的复制行为构成合理使用。

在两案的判决中，法院对于转换性使用目的这一要素上，均认为AI平台训练数据具备转换性。Bartz和Kadrey创作书籍的目的是教育和/或娱乐读者；而Anthropic和Meta的目的则不同，它们对书籍内容进行统计分析，从而将这些内容作为训练数据用于训练其基础模型。由于转换性使用目的这一要素在美国“合理使用”认定中占据较为重要的地位，因此两案均认可具有转换性目的、单纯的数据训练构成合理使用。

但另一方面，在Bartz v. Anthropic案中，法官认为存储盗版书籍副本的行为不构成合理使用。其实际上揭示了数据训练的复制权侵权风险，在这一点上与美杜莎案保持一致。

美国汤森路透案：美国人工智能数据训练版权侵权第一案

案情简介

Thomson Reuters是Westlaw平台可版权内容的权利方。Ross Intelligence（“Ross”）为训练其AI法律检索系统，向Thomson Reuters寻求使用Westlaw内容的许可，但因双方存在竞争关系而被拒绝。随后，Ross与Legal Ease达成协议，获取了Legal Ease利用Westlaw数据所创建的以“批量备忘录”（Bulk Memos）形式存在的训练数据，随后ROSS将Legal Ease提供的数据转换为可用于机器学习训练的数据用于训练其AI模型。Thomson Reuters遂以著作权侵权为由提起诉讼，指控Ross侵害了其21,787项法律批注、500项判例的编辑内容及关键号码系统的著作权。

法院判决

特拉华州地区法院就“商业用AI大模型训练数据能否构成版权合理使用”应用了美国合理使用的四要素判断标准：①使用目的和性质；②受保护版权作品的性质；③使用版权作品的数量和实质性；④使用版权作品对版权作品潜在市场或价值的影响。法院综合权衡原被告双方在各项判断要素中的优势情形后，认定Thomson Reuters在最重要的两个判断要素中（要素一和要素四）中占据优势，故而支持原告、驳回了Ross的合理使用抗辩。

在汤森路透一案中，法院考虑到：

①就使用目的和性质，由于Ross和Thomson Reuters使用法律批注用于非常相似的目的，并且Ross的使用行为是商业性的，因此倾向于不支持合理使用。

④就使用版权作品对版权作品潜在市场或价值的影响，因Ross打算通过开发市场替代品来与Westlaw竞争，并且Thomson Reuters是否已将数据用于训练自己的法律搜索工具并不重要，对潜在的AI模型训练数据市场会造成影响就足够了。Ross的行为可能对于Westlaw现有市场及潜在AI模型训练数据市场产生直接冲击。因此，倾向于不支持合理使用。

美国法院认为Ross使用Westlaw数据用于AI模型训练并不适用合理使用，但其主要原因在于Ross与Thomson Reuters实质上存在商业竞争关系并可能产生替代。那从另一方面也可以考虑，如果对来源作品进行使用时或具有再生产功能，或与著作权人对原作品内容的使用方式、功能或目的截然不同的情况下，AI平台模型训练或可适用合理使用。

德国摄影作品案

案情简介

原告Robert Kneschke是一名德国摄影师，拥有大量摄影作品的版权。被告Laion e.V.，是一家非营利组织，其运营的项目涉及收集和处理大量公开可用的图像数据，用于AI模型的训练。原告发现被告在未经其同意的情况下将其摄影作品收入了免费的人工智能数据集并用于AI模型训练。原告将被告诉至德国汉堡地区法院，要求被告从数据集中删除其作品。

法院判决

虽然德国著作权法下并未有如中美相关立法中“合理使用”概念的明确规定，但德国著作权法第24条规定了免费使用（free use）制度，即“通过自由使用他人作品而进行创作的个人作品，可以不经作品使用者的同意而出版和使用”。法院援引了“免费使用”制度下著作权法第60.d条规定的关于“免费使用”的情形：用于科学研究目的的文本和数据挖掘，认为案涉数据集在网上免费向所有研究人员开放，其行为是透明的、非商业性的。法院认为被告Laion e.V.对版权作品的使用符合第60.d条规定的“免费使用”情形，因此原告的诉讼被驳回。

从德国摄影作品案不难发现，针对以非商业用途为目的、利用他人享有著作权的作品开展 AI 训练数据的行为，德国法院更倾向于将其纳入合理使用或免费使用的范畴。但德国法院同时设置了明确的适用前提：一方面，行为人需将相关研究成果无偿向社会公众予以公开；另一方面，该行为主体不得与任何可从该项研究中获取商业利益的营利机构存在关联。

德国GEMA诉OpenAI案：欧洲首例生成式AI版权侵权胜诉案

案情简介

德国音乐演出和作品复制权协会（“GEMA”）作为欧洲规模最大的音乐著作权集体管理组织之一，管理着包括约十万名词曲作者和音乐出版人的音乐权益。GEMA主张，OpenAI在未获得授权、未支付任何报酬的情况下，“系统性”地将其管理的9首德国热门歌曲的完整歌词纳入ChatGPT的训练数据集；GEMA已通过网站声明文本与数据挖掘（TDM）使用禁止，且与权利人事先约定独占使用权及维权授权；ChatGPT可通过简单提示词（如“歌词全文是什么”）输出涉案歌词（含部分改编），构成复制与公开提供，侵犯版权；ChatGPT模型的“记忆－再现”机制导致歌词被固定并可重复输出，不符合TDM例外情形。因此，GEMA对OpenAI提起诉讼，提出禁令救济、信息提供及损害赔偿等诉讼请求。

法院判决

针对AI模型对歌词的“记忆”行为是否构成著作权法意义上的复制，法院认为，AI模型对涉案歌词的“记忆”行为已构成复制，其关键依据在于：模型参数中已固定了能够再现歌词内容的相关信息，即便该信息无法直接被感知，但用户通过简单提示词即可间接获取，完全符合《德国著作权法》第十六条所规定的“有形固定+可感知”核心要求，而技术实现形式的差异，并不影响该行为的法律定性。

因此，慕尼黑第一地区法院作出判决，支持原告GEMA核心请求：即被告OpenAI停止在模型中复制涉案歌词、通过ChatGPT公开提供或复制/改编歌词；向GEMA提交侵权行为范围及收益明细并赔偿GEMA全部已发生的及未来的损失；OpenAI承担GEMA在全国性报纸刊登判决核心内容的费用；OpenAI承担律师费及利息。

值得一提的是，在本案中，德国慕尼黑第一地区法院对于AI平台使用作品、数据的不同阶段的复制行为进行了讨论，其将这一过程分为三个阶段：

1)提取训练数据并将其转换为机器可读的格式；同时生成相应的训练数据文件。

2)对数据材料的分析及其与元信息的整合、模型的训练……

3)通过提示（prompts）和输出结果（outputs）来使用该经过训练的模型。

法院认为，第一阶段的复制属于文本与数据挖掘（TDM）的例外情形；而第二阶段的复制，因为其不仅提取训练数据中的信息，还对作品进行了复制，并用于进一步的数据分析，因此并不符合TDM的例外情形。

不约而同地，GEMA诉OpenAI案，与美国汤森路透案在AI模型数据训练这一问题上的观点形成了一定的呼应。两案法院均明确认定，AI模型在训练过程中对相关数据内容实施的复制行为，构成著作权法意义上的直接侵权。

AIGC

总结

综合上述判决可见，目前各地对于AI平台训练数据的裁判标准尚未统一；即使在国内已审结的两起相关案例中，判决结果也存在显著差异。但深入对比不难发现，各地法院对于商业化场景下使用数据训练AI大模型，均秉持着较为审慎的态度。

值得注意的是，中国在AI平台训练数据的监管与裁判上，明显呈现出“审慎中偏向宽松”的鲜明特征——既注重对著作权人的合法权益进行充分保护，也为AI技术的创新发展预留了合理空间，在明确不损害著作权人核心利益的前提下，对AI平台训练数据的使用采取相对宽松的态度，避免过度约束而阻碍技术创新的步伐。

这种审慎的立场，不仅体现在对技术发展与版权保护的平衡把控上，更对AI平台的合规运营作出了提醒：AI平台在开展数据训练时，需重视版权合规，避免因未经授权使用他人作品而引发侵权风险，同时也体现在平衡技术发展与版权保护时，对商业化数据训练行为的把控。AI平台可构建训练数据溯源登记机制，针对数据的获取途径与授权情况实施分类化管控；完善训练数据的处理情况追踪；加强与权利人的协作，取得合法授权。

当然，例如Minimax等关于数据训练的案例目前尚未有结果出炉，其最终判决结果可能会进一步明确 AI 训练数据版权纠纷的裁判逻辑，也可能影响后续同类案件中“合理使用”的适用边界，为 AI 行业数据训练使用的合规性提供新的参考依据。

国家数据局主管的数据产权登记 vs 知产局指导的数据知识产权登记：有何不同？企业如何选择？

专业领域

了解更多

关于星瀚

星瀚简介

星瀚文化

星瀚动态

专业人员

专业领域

星瀚研究

专业文章

专栏特刊

专题报告与出版物

招贤纳士

实习

法律业务部门

律所运营部门

合伙人

联系我们

专业文章

数据训练的尺度在哪？AIGC平台：输入环节的责任、风险与合规｜AI X 文娱

专业领域

相关动态

相关文章

专业文章

数据训练的尺度在哪？AIGC平台：输入环节的责任、风险与合规 ｜AI X 文娱

专业领域

相关动态

相关文章

数据训练的尺度在哪？AIGC平台：输入环节的责任、风险与合规｜AI X 文娱