作者简介:叶绍琛,蓝典信安董事长兼CEO,网络安全专家,人工智能安全研究者,公安部全国网警培训基地专家导师,中国下一代网络安全联盟常务理事,清华大学出版社网络安全教材作者,出版《移动安全攻防进阶》等多本网络安全学科教材。
随着生成式人工智能(如GPT-4、Llama等)的爆发式增长,数据抓取(Data Scraping)已成为构建大规模语言模型的核心技术手段。然而,这一技术背后隐藏着复杂的知识产权(IP)争议。2025年2月,经济合作与发展组织(OECD)发布的专题报告《人工智能基于抓取数据的知识产权问题》指出,当前全球约70%的AI训练数据集缺乏清晰的来源许可信息,且约17万本未经授权的书籍被用于训练Meta的Llama等模型,直接导致多国诉讼频发。
此类争议的核心矛盾在于:AI开发者依赖海量数据提升模型性能,但数据获取过程中频繁触碰版权、隐私和数据库权利的法律边界。本文基于OECD报告框架,结合全球典型案例与法律实践,探讨数据抓取的技术流程、法律挑战及治理路径。
一、数据抓取的技术流程与法律挑战
1. 数据抓取的技术本质
根据OECD定义,数据抓取指“通过自动化工具从第三方网站、数据库或社交媒体平台提取信息的行为”,其流程包括四个阶段:
- 数据收集:通过爬虫工具批量获取文本、图像、音视频等。
- 预处理:清洗、去重、结构化处理。
- 存储:构建训练数据集(如Common Crawl、Books3)。
- 模型训练:利用数据集优化神经网络参数。
以OpenAI的GPT-4为例,其训练数据中超过80%来自公开网络抓取内容,涵盖新闻、书籍、代码等多领域信息。然而,这些数据中可能包含受版权保护的作品,甚至个人隐私信息。
2. 法律挑战的三大维度
(1)输入端:合理使用与版权豁免的冲突
各国对“合理使用”和“文本与数据挖掘(TDM)例外”的解释存在显著差异:
- 欧盟:根据《数字单一市场版权指令》,允许研究机构在合法获取数据的前提下进行TDM,但版权方可通过技术手段(如robots.txt)选择退出(Opt-out)。
- 日本:修订后的《著作权法》明确允许商业用途的TDM,只要符合“非娱乐目的”。
- 美国:依赖司法判例逐案判断,如2023年《纽约时报》诉OpenAI案中,法院需裁定模型训练是否属于“转换性使用”。
(2)输出端:生成内容的权属争议
AI生成内容(如Midjourney绘画、ChatGPT文本)的著作权归属尚无统一标准。美国版权局明确“仅人类创作的作品受保护”,而中国司法实践中则承认“人类主导+AI辅助”模式下的著作权。
(3)跨国合规难题
欧盟《人工智能法案》实施“长臂管辖”,要求境外训练的模型若在欧盟市场输出内容,需遵守当地版权法。这种碎片化法律框架使企业面临高昂合规成本。
二、OECD的政策框架与治理建议
1. 四大核心政策方向
OECD报告提出以下治理路径:
(1)自愿行为准则
- 制定跨国准则,明确数据抓取的技术规范(如区分爬虫与恶意抓取)。
- 要求企业披露数据来源,并尊重技术保护措施(如遵守robots.txt协议)。
- 参考G7《广岛AI行为守则》,鼓励平台使用“数据集卡片”标注许可信息。
(2)标准化技术工具
- 开发支持版权管理的技术方案,如机器可读的“选择退出”标识。
- 探索API授权模式,集成自动付费系统(如Shutterstock与OpenAI的内容授权协议)。
(3)合同范本创新
- 设计标准化合同条款,平衡数据提供者与AI开发者的权益。例如,OpenAI与美联社的合作协议中,明确数据使用范围与分成机制。
(4)公众意识提升
- 通过教育项目帮助创作者理解权利边界,如欧盟推出的“AI版权指南”。
- 推动企业公开伦理审查流程,增强透明度。
2. 技术治理的实践案例
- 英伟达争议:2024年,英伟达被曝抓取YouTube、Netflix内容用于训练模型,尽管其主张“合理使用”,但仍面临版权方集体诉讼。此案凸显技术工具(如数据清洗)无法完全规避法律风险。
- Books3数据集事件:包含17万本盗版书籍的数据集被用于训练多个开源模型,反盗版组织通过DDoS攻击迫使平台下架该数据集,显示技术防御与法律手段需协同作用。
三、全球协作的困境与突破路径
1. 国际协调的三大障碍
- 法律碎片化:各国对TDM例外、合理使用的定义差异导致企业合规成本激增。
- 技术鸿沟:数据抓取能力集中于中美等少数国家,加剧全球不平等(如非洲国家缺乏数据主权议价能力)。
- 利益冲突:创作者诉求(如版税分成)与AI企业降本需求难以调和。
2. 多边治理的可行方案
- WTO框架下的数据流动规则:借鉴《用智慧交易》报告建议,推动跨境数据流动与隐私保护的平衡,避免GDP损失(如全面限制数据流动可能导致全球GDP减少5%)。
- OECD主导的跨国对话机制:建立“AI知识产权工作组”,协调各国立法(如统一TDM例外条款)。
- 公私合作模式:鼓励企业参与标准制定,如微软、谷歌联合发起的“AI数据伦理联盟”。
四、未来展望:技术迭代与法律演进的双向挑战
1. 数据耗尽的危机与替代方案
OECD预测,高质量训练数据可能在2026年前耗尽,迫使企业转向合成数据、语音转录等新型抓取方式。然而,合成数据可能引发“虚假信息污染”风险,需建立真实性认证体系。
2. 新兴侵权形式的界定难题
- 艺术风格模仿:AI生成作品若模仿特定画家风格,是否构成“道德权利”侵害?
- 虚拟形象权:AI生成的“虚拟歌手”使用真人声纹,可能侵犯人格权。
3. 法律制度的适应性改革
- 动态立法:采用“沙盒监管”模式,允许在限定场景内测试AI版权解决方案。
- 算法透明度:强制公开训练数据来源比例(如受版权保护内容占比),便于司法追溯。
五、总结
AI技术的进步不可逆转,但知识产权保护仍是其可持续发展的基石。OECD报告为全球治理提供了重要框架,但其成功依赖于各国政府、企业与社会组织的协同努力。正如报告主笔李·蒂德里奇所言:“没有一刀切的解决方案,但通过技术规范、合同创新与国际对话,我们可以为AI的可持续发展铺平道路”。未来,唯有在创新激励与权利保护之间找到动态平衡,才能实现人工智能的真正普惠。
极牛网精选文章《深度解析OECD报告:数据抓取训练AI的知识产权挑战与全球治理路径》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/27985.html