起底AI短剧侵权现象：“暗雷”在模型训练时就已埋下

2026-06-22 09:29:00 来源：正义网

　　◆近年来，微短剧越来越火。借助愈加成熟的AI生成模型，AI短剧产业发展势头渐猛，成为网络视听行业新风口。

　　◆行业热潮之下，深藏模型训练数据合法性隐患。记者调查发现，网络上“未授权AI短剧素材包”售卖信息泛滥，一个容纳了2万余部侵权短剧资源的素材包，售价仅0.85元。

　　◆业内人士揭露，有人购买大量素材包用于模型训练。盗版AI短剧资源、爬取全网资源、用户“投喂”侵权素材，构成了训练数据的重要来源。

　　◆专家认为，前端数据获取不合法，是AI短剧行业侵权现象的底层问题，并呼吁从行业数据源头监管入手，助力行业发展行稳致远。

　　“终于懂AI短剧的意义了，主角‘建模’太权威，满足了我的所有想象！”

　　近来，AI短剧行业一路高歌猛进，俘获了大批观众，成为网络视听新风口。这一繁荣，离不开具有强大数据处理和内容生成能力的AI生成模型。海量数据为模型训练迭代提供了支撑，但训练数据合法性问题却深隐其中，可能引发剧作生成之后的肖像权、隐私权侵权等问题。

　　记者调查发现，许多超低价AI短剧素材包在网络上公然售卖，灰色资源库规模庞大。受访专家直言，训练阶段先于生成阶段，训练数据合法是AI短剧健康发展的前提，源头侵权不治理，行业难以行稳致远。

　　仅售0.85元

　　超低价AI短剧素材包在市面流通

　　记者用“AI短剧训练素材包”在网络上搜索，发现售卖信息泛滥，一些帖文标题写着：“2026最新微短剧AI真人短剧合集”“成品AI漫剧20集至60集包过审、可陪跑”“短剧剧本资源200部”等。这些素材里，售价低的仅售0.85元，还标榜“高清无水印画质”；售价高一些的，也只有188元，提供“按需定制，支持协助上架”服务，称“包过审”。

　　记者下单了标价0.85元的素材包后，卖家直接提供了“更新搜索目录”和“全网搜剧网址”两个链接。在“更新搜索目录”文档链接里，记者发现，这个链接里集纳了5万余部短剧，其中有2569部AI短剧，包括《重生之我靠打猎养家》《月薪四千的反击》《废柴大小姐飒爆全星域》等。

　　记者操作后发现，在“更新搜索目录”下，只要点击“前往”按钮，就可以跳转至网盘链接观看，还可以下载。“全网搜剧网址”用于精准搜索，也能实现跳转至网盘链接。

　　在“全网搜剧网址”底部，几行文字揭示了庞大AI短剧资源的灰色问题：“资源链接为互联网索引获取，安全性由用户自行研判”，这暗示相关资源未经过授权许可；“本程序为非营利性，不收取任何费用”，这样的表述又与其卖家前期的售卖行为自相矛盾。

　　贩卖大量AI短剧资源，真如卖家所称的“供个人学习使用”吗？AI短剧导演琳子说：“业内有些人会购买这些素材，用来训练自己的AI生成模型。”

　　琳子介绍，出于成本考虑，有些创作者不会自己训练模型，专门的模型训练公司或大型AI生成平台更了解训练素材的来源。对于AI短剧创作者来说，训练素材的侵权问题具有较高隐蔽性。

　　记者搜索“AI短剧”案例发现，公开的因AI短剧训练数据侵权的案例很少，截至6月17日，中国裁判文书网上仅有一份相关案件判决书，事由系为制作AI短剧课程作虚假宣传。

　　侵权数据来源

　　盗录作品、爬取资源、用户“投喂”

　　记者整理资料与采访后了解到，盗录作品、爬取资源、用户“投喂”是侵权数据的主要来源。

　　盗录者是侵权素材库出现的“元凶”。2024年初，某公司推出的AI短剧在短视频平台爆火。覃某某与沙某某从官方或非官方电商渠道购买了该付费AI短剧，用录屏软件翻录复制，至少将1716部视频储存在云盘中，再生成分享链接，以几元到十几元不等的价格通过网络售卖，违法所得2300余元，后受到刑事处罚（本报2026年5月9日一版曾作报道）。该案也成为AI短剧著作权刑事保护的标志性判例。

　　琳子告诉记者：“在AI短剧行业发展初期，很多中小团队训练模型会爬取全网资源，侵权问题比较严重。”

　　“就在前两天，我们制作了一个审讯的画面，给到的人物形象、场景都是AI自己生成的，是完全没问题的。但最后生成出来的一个人物很像某知名男艺人，声音像、表情也像，简直一模一样，非常诡异。”琳子说。

　　用户“投喂”也是训练数据的重要来源，其中可能会混入侵权素材。在著名的上海“美杜莎LoRA案”中，用户李某截取了20余张《斗破苍穹》系列动漫中的美杜莎形象图片，做成图包投入平台，生成了两款美杜莎LoRA（一种给大模型“打补丁”的高效微调技术）模型。法院判决，要求李某停止侵犯原告公司享有的相应复制权及信息网络传播权。

　　中国法学会知识产权法学研究会常务理事、对外经济贸易大学法学院教授卢海君告诉记者，盗录、非法爬取素材及售卖侵权素材的行为，均有侵权嫌疑。

　　“盗录AI短剧素材、非法爬取素材的行为首先侵犯了复制权，因为盗录行为本身就是对作品的非法复制，而爬取的过程就是持续复制的过程。如果盗录、爬取过程中还规避了平台的技术保护措施，将同时构成对技术措施权的侵犯。”卢海君说。

　　“售卖未授权素材的行为也侵犯了发行权。同时，由于售卖行为使得素材在更大范围内扩散，还涉嫌侵犯信息网络传播权。值得注意的是，售卖行为往往具有明显的营利目的和规模化特征，这使其在损害赔偿认定中更容易被认定为‘情节严重’，从而适用惩罚性赔偿。”卢海君进一步介绍。

　　核心侵权问题

　　前端数据获取是否合法

　　受访专家普遍认为，在AI短剧生成训练阶段，AI短剧训练数据侵权不等于训练行为侵权，核心矛盾在于前端数据获取是否合法。

　　卢海君指出：“训练阶段的核心侵权问题，是开发者或制作者未经许可获取并使用他人作品作为语料，即前端数据获取合法性的问题，相应责任主要在AI生成模型开发者或训练数据提供者。”

　　值得关注的是，凝聚了“人类智力投入”的AI短剧受著作权法保护，意味着未经授权将AI短剧作为训练数据，也涉嫌侵权。

　　作为前述覃某某、沙某某盗录AI短剧案的办案检察官，广东省广州市黄埔区检察院第二检察部副主任张秋杰说：“此案中，用户主导了剧本构思、镜头安排、画面风格等创作，与AI工具提供方合作完成了AI短剧。在创作前，二者也书面约定了产出作品由双方共同享有著作权。”

　　张秋杰指出：“AI生成物如果高度凝聚了人的创作意志，且人的智力劳动对于AI生成结果具有强控制特点，该类AIGC（人工智能生成内容）可受著作权法保护。”

　　对于训练行为，记者了解到，其包括获取、存储、清洗素材，以及预训练、微调、强化学习等。

　　中国社会科学院大学互联网法治研究中心主任、副教授刘晓春说：“训练行为本身是不是构成侵权，现在没有形成定论，国外判例和国内研究者都倾向于认为，训练本身不一定构成侵权，也有可能属于合理使用。”

　　受访专家指出：“数据来源不‘干净’，合理使用就无从谈起。如果训练数据是盗录素材、爬取的盗版资源，或取自享有著作权的动漫、游戏画面，因前端获取本就违法，更谈不上合理使用。反之，若是取得了合法授权、明确约定了‘机器学习用途’的数据，训练行为定性为合理使用的空间就大得多。”

　　事后侵权难发现

　　专家建议直击数据源头规范授权链条

　　随着AI短剧行业飞速发展，琳子愈发感受到，作者对作品的保护意识在不断增强。“我们会把作品上传到提供时间戳服务的网站上，一旦发现有人侵权，就可以起诉。”

　　而考虑到模型训练的隐蔽性，作者要在事后解决相应侵权问题，尚存在难处。卢海君分析，具体有三点困难：

　　侵权发现难。训练行为发生在模型内部，具有高度隐蔽性，作者无法通过公开渠道获知自己的作品是否被用于训练、被何种模型训练、训练到了什么程度。只有当生成内容与原作品实质性相似时，才能反向推断侵权行为的存在。

　　充分举证难。要证明作品被非法用于训练，作者需要穿透模型的“技术黑箱”，证明训练数据中确实包含了自己的作品、模型将原作品的表达特征转化为内部参数、训练数据与生成内容之间存在因果关系，这些证明事项涉及深度技术原理，远超普通人的举证能力。

　　赔偿计算难。模型训练本身不直接产生市场收益，对作者的权益损害体现在下游生成内容的替代。作者要证明“训练行为所造成损失的多少”，需要在训练模型与生成内容的市场影响之间建立因果链条，这在当前缺乏成熟的量化模型。

　　卢海君强调：“训练阶段‘投喂’什么素材，往往直接决定生成阶段‘吐出’什么内容。训练阶段的不当取材是生成阶段侵权后果的‘源头活水’，治理不能只盯着输出端，要直击训练数据源头。”

　　《生成式人工智能服务管理暂行办法》明确规定，生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动，使用具有合法来源的数据和基础模型，涉及知识产权的，不得侵害他人依法享有的知识产权。

　　AI提供方也在行动，其对上传素材的审查正变得更为严格。琳子说，AI生成平台会在用户上传素材时，就审核素材合规问题进行提示。“像‘即梦’主平台，它是不允许用真人素材生成人物的。”

　　北京知识产权法院审判监督庭庭长冯刚此前撰文指出，AI开发者不可能与海量、分散的著作权人逐一完成授权谈判，在此情况下，传统“一对一”著作权授权模式走向失灵。

　　刘晓春从AI短剧行业的宏观数据治理角度给出了建议：“对于AI短剧生成模型训练数据的授权链条，目前还没有特别清晰的规范。可以要求AI模型提供方在网信部门备案时，就说明其数据来源。”

　　她进一步分析：“在训练阶段，怎么获取数据授权、在什么环节获取授权并进行审查，可以由某些头部企业或者平台牵头，形成适用于AI短剧行业的规范，推动在数据收集源头就实现合规操作。”

　　卢海君表示：“要区分涉不涉及知识产权的数据。对前者，应在授权环节明确是否违反robots协议（用于告知自动化程序哪些页面可以抓取、哪些禁止访问）、是否规避技术措施、授权合同是否覆盖‘机器学习用途’。对后者，可在反不正当竞争法第13条的数据权益规定下进行规范。”

　　冯刚撰文建议，为适配AI训练的产业需求，可以建立著作权补偿金制度，将人工智能平台从作品使用中获得的商业收益反向分配给作为创作源头的著作权人，保障著作权人获得一定经济回报，从而在权利人保护与产业创新之间找到最佳平衡点，实现创作激励与技术创新的良性循环。

　　AI短剧模型训练数据存在哪些侵权风险

　　——对话标志性AI短剧著作权刑事保护案办案检察官张秋杰

　　不久前，发生在广州市的一起盗录AI短剧案引发广泛关注。覃某某、沙某某未经AI短剧著作权人许可，翻录复制至少1716部作品后，生成分享链接贩卖传播，法院认定其侵犯了AI提供方与用户共同享有的AI短剧著作权，并依法追究其刑事责任（本报2026年5月9日一版曾作报道）。该案中，作品是否有“人类智力投入”成案件定性关键，该案也成为AI短剧著作权刑事保护的标志性判例。

　　近日，记者联系到该案办案检察官——广州市黄埔区检察院第二检察部副主任张秋杰，围绕AI短剧著作权的权属情况、如何认定“人类创作智慧投入”、AI短剧被非法用于模型训练的风险等，展开对话。

　　记者：部分符合条件的AIGC（人工智能生成内容）短剧属于著作权法保护的作品。一般来说，此类作品的著作权可归属于哪些主体？

　　张秋杰：在这起AI短剧著作权刑事保护案中，AI生成物如果主要凝聚了人的创作意志，人的智力劳动对于AI生成结果具有强控制特点，则该类AIGC可受著作权法保护。著作权只能由“人”享有，对于人工智能生成作品如AI短剧，可能享有权利的“人”有用户、AI提供者等。具体著作权归属于谁，可以由相关主体约定。如无约定，一般可根据AI生成的过程、原理、各主体对于创作表达的贡献具体分析认定。

　　记者：什么样的投入可以视为AI短剧主要由“人类创作智慧投入”决定？是否有量化标准可参考？

　　张秋杰：关于怎样理解“人类创作智慧投入”对于AIGC的决定作用，是个系统性强又复杂的法律问题，目前人、机投入占比问题并没有具体的量化数值要求和明确法律规定。

　　在覃某某、沙某某盗录AI短剧案中，检察院、法院、专家均认为，如果机器和程序调用现有素材生成的内容，只是对已有素材的简单安排组合，就不能认为是人的智力劳动成果产生的具有独创性的表达成果；而如果AI生成的内容成果，其创作过程经由人输入提示训练内容、调用各类功能和设置加入各类元素，人在其中的智力劳动贡献更大且更关键，AI实际执行人的意志生成内容，人对于使用AI产出的成果具有“强引导、强限定”特点，且人使用AI时输入同样的内容、设置同样的表达，经过AI处理只会产出相同结果，那么可以认为该类AIGC生成主要由“人类创作智慧投入”决定，具有可版权性，受著作权法保护。

　　记者：用户训练AI时输入他人享有著作权的AI短剧作品，达到什么样的相似度会涉嫌侵权？

　　张秋杰：用户在使用生成式人工智能的过程中，难免需要输入提示词、利用AI开发者预设的运算逻辑搜索以及调用相关数据、资料。对于提示词是否会侵权，其实是传统的侵权问题。如果输入的提示词简单，属于思想范畴，则基于“思想自由”，不存在侵权问题；如果输入的提示词、素材等本身属于作品，则通过一般判断规则具体分析即可。而侵权要求的相似度，其实就是著作权法意义上的“实质性相似”。该相似并无具体量化标准和相关规定，主要是比对涉及侵权作品是否有引证作品核心且具有独创性的表达。

　　记者：就AI短剧模型训练数据存在的侵权问题而言，您观察到有哪些风险点？

　　张秋杰：就用户使用AI训练的过程来说，除了用户可能侵权，人工智能服务提供者也可能侵权，比如用户输入的提示词或者训练内容，侵犯了他人享有著作权的作品权利，而AI提供者在开发大模型及搜索数据时，没有尽到注意或审查的义务。另外，人工智能大模型也涉及侵权问题，比如大模型抄袭、模仿等。这些行为最终除了侵犯著作权、商业秘密等知识产权，还可能侵犯人格权、肖像权等民事权利。事实上，除了训练阶段的侵权问题，生成式人工智能还涉及生成内容的侵权问题。

作者：易得香编辑：王子钰

ag尊龙凯时