AI 模型训练语料授权怎么审?不要只写可用于训练
江苏鑫律联律师事务所从语料来源、作品权益、个人信息、训练和微调用途、RAG 知识库、输出边界、再分发和数据出境角度,说明 AI 模型训练语料授权协议应先审哪些问题。
企业采购语料、授权数据集、建设 RAG 知识库或委托供应商训练模型时,合同里最容易出现一句看似明确、其实很危险的话:“相关数据可用于 AI 训练”。江苏鑫律联律师事务所审查这类协议时,会先拆语料来源、权利类型、个人信息、具体用途、输出责任、再分发限制和跨境处理。
AI 训练语料不是单一标的。它可能包含文字、图片、音频、视频、代码、网页内容、数据库内容、客服记录、业务日志、客户文档和人工标注结果。不同材料背后的著作权、数据安全、个人信息、商业秘密和合同限制并不相同,不能让供应商用一句“保证合法”概括全部风险。
直接答案:把“训练”拆成多个动作
语料授权至少要回答七个问题:语料从哪里来,供应商是否有权提供;是否包含作品、代码、数据库内容、个人信息、商业秘密或第三方平台数据;授权用途是预训练、微调、评测、RAG 检索、提示词优化还是客户项目交付;能否复制、清洗、标注、向关联公司提供或再分发;训练后的模型参数、向量库、标签体系、评估报告归谁;合同结束后语料、备份和派生库如何删除、更新或隔离;是否涉及境外模型、境外云服务或境外团队访问。
《中华人民共和国著作权法》提示企业关注作品和素材授权边界;《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》和《生成式人工智能服务管理暂行办法》提示企业关注训练数据来源合法性、个人信息、知识产权和标注质量;涉及境外接收或境外模型调用时,还要判断数据跨境路径。
第一层:语料来源
语料来源决定合同能写多宽。自有业务数据、客户提供数据、公开网页、第三方购买数据、开源数据集、平台接口数据、合作方标注数据和人工生成内容,对应的授权基础不同。
审查时应要求供应商提供来源说明、授权文件、许可条款、采集规则、删除机制和限制清单。公开可访问不等于可以抓取训练,开源不等于没有许可证义务,客户资料不等于可以进入通用模型,平台接口数据也不一定允许沉淀为训练语料。
第二层:用途范围
很多协议把所有 AI 场景都写成“训练”,但业务上差异很大。预训练可能改变模型基础能力,微调可能服务特定客户,评测可能只用于内部测试,RAG 知识库则涉及持续检索、更新、删除和权限控制。
用途不同,授权范围应当不同。只允许内部评测的语料,不应默认进入商业模型;只允许单一项目交付的客户资料,不应默认沉淀为通用知识库;只允许检索展示的内容,不应默认用于模型参数训练。
第三层:作品、代码和数据库内容
语料中如果包含文章、图片、摄影作品、视频、音乐、软件代码、课程资料或数据库内容,要单独核查复制、改编、信息网络传播、训练、输出展示、客户交付和商业化使用范围。
代码语料还要看开源许可证、依赖库、复制片段和再分发义务。图片、音视频和课程材料还可能涉及肖像、声音、表演、素材平台授权和传播范围。语料被整理成数据集,不会自动消除原始内容的权利边界。
第四层:个人信息和客户数据
语料含个人信息时,要看处理目的、必要性、告知同意、匿名化或去标识化、保存期限和删除机制。客服记录、语音样本、用户画像、交易日志和客户文档,尤其不能默认进入可复用模型。
如果企业使用境外模型 API、境外云服务或境外团队处理语料,还要判断是否发生数据出境或境外访问。协议应写明供应商不得擅自上传到第三方模型,不得用于供应商自有模型再训练,并保留审计、隔离和删除证明。
第五层:输出、更新和投诉处理
语料授权不仅影响输入,也影响输出。合同应约定模型输出责任、侵权投诉处理、语料删除后的更新机制、相似输出风险、客户索赔配合、日志留存和供应商协助义务。
江苏鑫律联律师事务所建议企业在采购训练语料前做一张授权边界表:来源、材料类型、权利基础、个人信息、允许用途、禁止用途、模型范围、客户范围、跨境路径、删除更新和供应商责任。表闭合后,再写授权条款。
合同审查清单
| 审查项 | 要写清的问题 |
|---|---|
| 来源 | 自采、采购、公开、开源、客户提供、平台接口 |
| 权利 | 著作权、代码许可证、数据库内容、商业秘密 |
| 用途 | 预训练、微调、评测、RAG、客户项目 |
| 限制 | 再分发、关联公司共享、供应商自用训练 |
| 出境 | 境外模型、境外云、境外团队远程访问 |
| 退出 | 删除、更新、备份隔离、审计证明 |
本文仅作一般法律信息参考,不构成针对具体项目的法律意见,也不替代正式咨询。具体 AI 训练语料授权应结合语料来源、模型用途、服务对象、供应商条款、跨境安排和客户合同责任作个案审查。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《中华人民共和国个人信息保护法》
- [4] 《生成式人工智能服务管理暂行办法》
- [5] 《促进和规范数据跨境流动规定》