人工智能大模型训练如何合法使用受版权保护的数据?

人工智能大模型训练如何合法使用受版权保护的数据?

蓝典信安 · AI合规服务中心,专注于为企业提供一站式AI合规咨询及治理服务,提供涵盖算法备案、数据安全与伦理审查等全面的合规咨询、评估与审计服务,量身定制内部治理体系与合规流程,致力于将复杂法规转化为清晰指南,助您高效规避AI合规风险,确保您的AI创新业务在合规上行稳致远。合作邮箱:AI@LD-SEC.com

随着人工智能技术的飞速发展,大模型训练对海量数据的需求与日俱增。然而,这些数据中大量包含受版权保护的文字、图片、代码等作品,使得版权合规成为模型开发者无法回避的核心法律问题。本文将系统性地探讨:在训练AI大模型时,使用受版权保护的作品需要获取哪些授权,以及“合理使用”这一例外情形的边界究竟在哪里。

一、核心授权范围:从“输入”到“输出”的全流程审视

AI大模型的训练过程本质上是一个对数据进行复制、分析和学习的过程。因此,仅仅在“使用”层面思考是不够的,必须从数据获取、训练处理到最终生成的完整链条来审视版权风险。

  1. 数据输入阶段的关键授权

    • 复制权:这是最核心、最基础的授权。将受版权保护的作品下载、存储到训练数据库,以及将其“喂”给模型进行学习的过程,本质上构成了对作品的复制行为。无论该复制是临时的还是永久的,都需要获得著作权人的许可。

    • 信息网络传播权:如果训练数据是通过网络爬虫等技术从互联网上抓取的,这一行为还可能涉及“信息网络传播权”,即通过有线或无线方式向公众提供作品,使公众可以在其选定的时间和地点获得作品的权利。

  2. 数据输出阶段可能涉及的授权
    模型的输出结果如果与训练数据中的受保护作品构成实质性相似,则可能引发新的版权侵权问题。此时可能涉及的授权包括:

    • 改编权:当模型基于学习到的风格生成新作品(如图片风格迁移、基于特定文风的续写)时,其产出可能被视为原作品的改编作品,需要获得改编权授权。

    • 表演权/展示权:对于文本、音乐或视听作品,当模型生成的内容被公开展示或表演时,可能涉及此项权利。

核心要点:原则上,未经许可将受版权保护的作品用于大规模商业化的模型训练,其侵权风险极高。开发者应优先考虑使用已获得合规授权的数据集、开放许可的数据(如CC协议)或自行创作的数据。

二、合理使用的边界:并非“免费”的通行证

“合理使用”或“版权例外”是著作权法中的重要平衡机制,为AI训练提供了一定的抗辩空间。但其适用条件严苛,边界模糊,需结合具体法域和案情进行判断。

1. 中国《著作权法》框架下的“三步检验法”

我国《著作权法》第二十四条列举了“合理使用”的具体情形,并总体上遵循国际通行的“三步检验法”原则:

  • 第一步:特定且合理的用途。使用必须属于法律明确列举的情形,如“为个人学习、研究”或“为学校课堂教学或科学研究”。目前,大规模、商业性的AI模型训练很难被归入这些特定情形。司法实践更倾向于对“合理使用”进行严格解释。

  • 第二步:不影响作品的正常使用。即不能因为AI训练的使用行为,而替代了原作品的市场需求。例如,如果模型能大量生成与原著高度相似的文本,从而导致原著销量下降,便可能影响其正常使用。

  • 第三步:未不合理损害著作权人的合法权益。这要求使用行为不能对著作权人的潜在市场利益和收益造成不合理的损害。即使当前未产生直接收益,但只要对权利人的许可市场构成了潜在冲击,也可能被视为侵权。

例如:为一个非盈利的学术研究项目,少量引用已发表论文中的片段进行模型测试,可能构成合理使用。但,商业公司通过爬虫技术大规模复制全网小说作品以训练其付费文案生成模型,则几乎必然超出合理使用的边界。

2. 美国版权法下的“公平使用四要素”

美国的“公平使用”原则更为灵活,法院通常会综合考量以下四个因素:

  • 使用的目的和性质:是否为非营利、教育性或具有“转化性”。“转化性使用”是指对原作品增加了新的表达、意义或信息,而不仅仅是替代原作品。AI训练是否构成“转化性使用”是目前法律争议的焦点,尚无定论。

  • 受版权保护作品的性质:使用事实性、资料性作品比使用高度原创性的艺术作品更可能被认定为公平使用。

  • 使用部分在原作品中所占的比例和实质性:即使只复制了原作品的一小部分,但如果该部分是作品的“核心”或“精华”所在,也可能导致侵权。

  • 使用行为对作品潜在市场或价值的影响:这是最重要的因素。如果AI生成的内容能够替代原作品,从而侵蚀著作权人的市场份额,那么公平使用的抗辩就很难成立。

三、合规建议与未来展望

当前,全球范围内关于AI训练数据版权的法律认定仍处于探索和争议阶段,各国法院的判例正在逐步塑造这一领域的规则。对于AI模型开发者而言,在法规完全明朗之前,采取审慎的合规策略至关重要。

  • 风险最小化路径:积极获取授权,与版权方合作,或构建以授权数据为主的数据集。

  • 实施内部审查:建立数据来源筛查机制,对训练数据的版权状态进行评估和记录。

  • 关注立法动态:密切关注中国、美国、欧盟(如《人工智能法案》)等主要司法辖区的最新立法和司法判例,及时调整合规策略。

结论:AI大模型训练与版权保护的冲突,本质上是技术创新与知识产权制度在新时期的调适。开发者既不能因噎废食,也不能野蛮生长。在“授权”与“合理使用”之间找到平衡点,需要法律给出更清晰的指引,也需要产业界展现出更多的合规诚意与创新智慧。

 

人工智能大模型训练如何合法使用受版权保护的数据?

极牛网精选文章《人工智能大模型训练如何合法使用受版权保护的数据?》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/28393.html

(29)
打赏 微信公众号 微信公众号 微信小程序 微信小程序
主编的头像主编认证作者
上一篇 4天前
下一篇 1小时前

相关推荐

发表回复

登录后才能评论
扫码关注
扫码关注
分享本页
返回顶部