AI大模型训练：公开数据等于免费午餐？厘清授权边界与合规路径

《AI大模型合规指南》是由Aiii人工智能创研院（www.aiii.org.cn）发起并编写的白皮书，系统梳理了人工智能大模型在研发、训练、部署与应用全生命周期中的法律合规要点，涵盖数据安全、算法伦理、内容治理、知识产权等核心领域，旨在为企业、开发者及监管机构提供可落地的合规框架与实践路径，助力AI产业在技术创新与风险防控之间实现平衡发展，推动构建负责任、可信赖的人工智能生态。

在AI大模型训练的巨大数据需求下，“公开数据”常被误解为可随意取用的“免费资源”。然而，从法律视角审视，数据的“公开可获取”与“可免费商用”之间存在巨大鸿沟。本文将深入剖析公开数据的授权迷思，并提供一套清晰可行的“受保护数据”区分标准与合规操作指南。

一、公开数据的授权迷思：法律上的“公开”不等于“授权”

必须破除的一个关键误区是：数据的公开状态并不自动等同于授权或许可。 法律保护的是数据背后的权利，而非其获取难度。

1. 无需授权的公开数据：真正的“公共领域”资源

仅有以下两类公开数据可被视为无需授权：

权利已过期或不存在：例如，超过著作权保护期（如我国《著作权法》规定的作者终生加50年）的经典文学作品、古籍、历史档案等，已进入公共领域。
权利主体明确放弃：如作者主动采用“CC0”（知识共享零）许可，明确声明放弃一切权利，将作品投入公共领域。

2. 需授权的公开数据：绝大多数“公开可获取”内容的真相

网络上绝大多数“公开”内容，其权利并未让渡，包括：

原创版权内容：在社交媒体、博客、新闻网站、专业论坛上发布的原创文章、图片、视频、代码等，即使可免费浏览，其著作权依然受法律保护。
用户公开的个人信息：用户在公开社交平台发布的个人动态、照片、评论等，虽处于公开状态，但仍受《个人信息保护法》等隐私法规保护，其收集与用于训练需满足合法性基础。

二、核心区分标准：如何精准界定“受保护数据”？

为避免侵权风险，企业需建立一套基于权利状态审查的内部评估机制，核心是审视以下三个边界：

1. 权利主体边界：谁拥有权利？

权利主体明确：能够清晰追溯到作者、平台或用户的数据，必须获得相应授权。
权利主体不明：对于匿名或无法确定权利人的作品，仍需保持高度谨慎。根据我国《著作权法》，此类作品仍受保护，由原件所有人行使除署名权外的著作权，直至作者身份明确。

2. 权利时间边界：权利是否在保护期内？

这是判断作品是否进入“公共领域”的关键。需建立数据库，对数据的创作时间进行初步判断，重点关注经典作品与现代作品的分野。现代作品（近几十年内创作）绝大多数仍处于保护期内。

3. 权利限制边界：权利人是否设置了使用条件？

越来越多的权利人在发布内容时通过声明、许可协议或技术措施明确使用限制。例如：

Robots协议：网站通过robots.txt文件告知爬虫哪些内容不允许抓取。
明确声明：如注明“未经许可，禁止用于AI训练”或“禁止任何形式的商业使用”。
开源许可证：使用开源代码时，需遵守对应的许可证（如GPL、Apache等）条款，其中可能包含使用限制。

无视这些明示的限制，将构成侵权，并可能承担惩罚性赔偿责任。

三、 “合理使用”的有限空间与严格条件

在某些法域（如中国、美国），著作权法中的“合理使用”或“适当引用”条款为AI训练提供了一丝可能性，但其适用空间极为狭窄且充满不确定性。

中国的“合理使用”：《著作权法》第24条规定的“为学校课堂教学或科学研究，少量复制已发表的作品”等情形，很难覆盖商业性、大规模的大模型训练活动。
欧盟的“文本与数据挖掘例外”：欧盟《数字单一市场版权指令》引入了明确的TDM例外，但允许权利人以预留方式声明退出。这意味着，即使符合例外情况，如果网站明确声明禁止TDM，则抓取仍属侵权。

合规建议是：切勿将公司的商业模式建立在存在巨大法律不确定性的“合理使用”之上。