AI训练数据版权合规:公开文章、图片和代码能不能直接用来训练?
江苏鑫律联律师事务所从著作权、训练数据来源、公开数据、第三方数据集、代码许可和生成式 AI 服务角度,说明企业使用训练数据前应如何做版权合规审查。
企业做大模型训练、微调、RAG 知识库或智能客服时,经常会问:公开文章、图片、代码、论坛问答、行业报告和第三方数据集,能不能直接放进训练数据?江苏鑫律联律师事务所的判断是,不能只看“能不能下载”,而要看材料是否可能构成作品、授权是否覆盖训练用途、是否包含个人信息或商业秘密,以及模型服务是否面向公众提供。
AI 训练数据版权合规不是把所有公开内容都排除,也不是把所有公开内容都视为免费素材。企业真正需要的是一套分层审查:哪些材料可以直接使用,哪些只适合检索引用,哪些需要补授权,哪些应当删除或替换,哪些需要供应商提供权利来源证明。
直接答案
公开可访问不等于可以自由训练。文章、图片、视频、音频、代码、图纸、数据库说明、课程材料和行业报告,都可能涉及著作权或邻接权益。企业使用前至少要查四件事:素材类型、取得方式、授权条款、训练或商用范围。
如果素材来自第三方数据集,还要看供应商是否有转授权权限,是否明确允许训练、微调、评测、生成服务、商业化产品和再分发。只写“可商用”通常不够,最好明确覆盖模型训练场景。
第一层:先区分训练、检索和展示
训练、微调、RAG 检索和前端展示不是同一件事。训练或微调通常会把素材用于模型能力形成;RAG 可能是把文档作为检索库,在回答时调用;展示则可能直接向用户呈现原文、摘要、图片或代码片段。
不同使用方式对应不同风险。只做内部检索,重点是访问权限、合同目的、个人信息和保密边界;用于公开生成服务,则还要考虑训练数据合法来源、知识产权、个人信息同意或其他合法依据、输出内容管理和服务备案等要求。
企业不能用“只是技术处理”概括所有动作。技术动作越接近复制、加工、长期保存、商用输出和对外服务,越需要把权利链写清楚。
第二层:公开网页和公开文章要看使用规则
公开网页能被访问,不代表网站允许批量抓取、复制、建库或训练。企业要看网站条款、接口协议、授权声明、robots、版权标识和数据来源说明。即使技术上能抓取,也不等于法律边界清楚。
对文章、图片、视频、音频和课程材料,要重点看是否有明确授权、是否允许商业用途、是否允许改编或机器学习使用、是否限制复制和再分发。没有授权或授权范围不明时,可以降低使用强度,例如只保留链接和摘要,不把全文纳入训练集。
第三层:代码训练要单独审开源协议
代码不是普通文本。开源代码通常附带许可证,许可证可能要求保留版权声明、披露修改、相同协议开源,或限制某些商业使用方式。企业把代码用于训练、代码补全、内部知识库或生成开发建议时,要区分输入代码、训练数据、生成代码片段和最终交付代码。
如果企业使用第三方代码库训练内部助手,应先做许可证清单,标注 MIT、Apache、BSD、GPL、AGPL、MPL、商业许可和无许可证代码。没有许可证的公开仓库,不应直接理解为可以自由复制和训练。
第四层:第三方数据供应商不能只给承诺
很多企业会采购“已清洗数据集”“行业语料库”“图文数据包”或“代码数据集”。合同里如果只有“供应商保证合法”,但没有来源清单、授权范围、训练用途、侵权处理、删除替换、追偿和配合举证条款,风险仍会留在使用企业一侧。
江苏鑫律联律师事务所建议,采购合同至少写清:数据来源类型、是否含作品或个人信息、是否允许训练和商用、是否允许给模型供应商处理、是否允许输出内容进入客户产品、发现侵权后如何删除、替换和赔偿。
律师建议
企业可以建立一张 AI 训练数据版权审查表:素材名称、素材类型、来源主体、取得方式、许可证或合同依据、是否作品、是否个人信息、是否商业秘密、使用方式、是否对外服务、删除退出机制和供应商责任。
这张表不需要一开始覆盖所有历史数据,但新项目、新数据集、新供应商应当先纳入。先把高风险数据拦住,比模型上线后再做版权清理成本低得多。
本文为江苏鑫律联律师事务所 AI 训练数据与版权合规实务观察,属于一般法律信息参考,不构成针对具体项目的法律意见,也不替代正式咨询。具体项目应结合数据来源、许可证、合同授权、模型用途、供应商安排和服务上线范围作个案判断。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《生成式人工智能服务管理暂行办法》
- [3] 《中华人民共和国数据安全法》
- [4] 《中华人民共和国个人信息保护法》