大模型数据来源合规审查:别把公开数据直接当训练数据
江苏鑫律联律师事务所从大模型训练、RAG、公开数据、客户数据、第三方数据集和供应商合同角度,说明企业应如何做数据来源合规审查。
企业做大模型训练、微调、RAG 知识库、智能客服或文档问答时,常见误区是把“网上能看到”“客户已经给了”“供应商说可用”直接理解为可以进入训练集。江苏鑫律联律师事务所的实务判断是,大模型数据来源合规审查的第一步,是先把数据从哪里来、谁有权提供、能用于什么目的、是否包含个人信息或作品拆清楚。
数据来源合规不是为了拖慢项目,而是为了避免模型上线后才发现训练语料里混有客户个人信息、第三方作品、保密资料、超范围授权数据或来源不明的数据集。前期多做一张来源表,后期可以少很多下架、删除、补授权和争议处理成本。
直接答案
企业应先做五个判断:数据来源是否合法,授权是否覆盖训练或检索增强,是否含个人信息、重要数据、商业秘密或第三方作品,是否会交给模型供应商或标注团队处理,最终服务是否面向公众提供。
如果这五个问题没有答案,不建议直接把数据导入训练、微调或知识库系统。即使只是内部测试,也应先做最小样本、权限隔离、日志留存和测试后删除安排。
第一层:把来源分成四类
第一类是企业自有数据,例如合同、工单、客服记录、知识库、交易数据、设备日志和项目文档。自有不等于无风险,仍要看是否含个人信息、客户保密信息、员工信息、第三方材料或合同限制。
第二类是客户或合作方提供的数据。重点要看合同目的、授权范围、保密条款、委托处理关系、是否允许用于模型训练、是否允许沉淀到通用能力,以及项目结束后是否要删除或返还。
第三类是公开数据,例如网页、文章、图片、视频、代码、论坛问答和公开数据库。公开可访问不等于可以复制、训练、商用或再分发,还要看著作权、网站规则、接口协议和抓取方式。
第四类是第三方采购或供应商整理的数据集。重点不是对方有没有交付,而是对方有没有权利来源、转授权权限、训练用途授权、侵权赔偿安排和配合删除替换义务。
第二层:客户数据要先看个人信息边界
客户数据、客服记录、录音、图片、合同和交易日志中,只要能识别特定个人,就可能涉及个人信息处理。企业不能用“内部研发”直接覆盖新的训练目的。
审查时要看原始告知同意或合同目的是否覆盖训练、微调、评测和模型优化,是否涉及敏感个人信息,是否需要匿名化,是否会提供给第三方模型厂商或标注人员,是否能满足删除、撤回同意、更正和访问等请求。
如果只是删除姓名和手机号,但还能通过账号、语音、图片、轨迹或订单组合识别个人,就不能简单写成已经匿名化。
第三层:公开数据和第三方数据要查权利链
公开数据常常带来著作权、邻接权益、数据库权益、平台规则和商业秘密风险。企业要看材料类型:文字、图片、音视频、代码、图纸、表格、数据库和行业报告的权利边界不同。
第三方数据集要看合同条款是否明确允许训练、微调、评测、RAG、商业化产品、模型输出和再分发。只写“可商用”仍然不够,最好明确是否覆盖模型训练和生成服务场景。
如果供应商不能说明数据来源,只能提供笼统承诺,企业应降低使用范围,要求补授权、删除高风险数据或设置追偿条款。
第四层:模型供应商合同要单独审
企业把数据上传给模型 API、私有化部署厂商、标注团队或外包服务商时,要审查供应商是否会把数据用于自身训练、是否保留输入输出、保存期限多长、是否有子处理者、是否跨境传输、是否支持删除和审计。
很多争议不是来自训练数据本身,而是来自供应商二次使用。合同里应写清数据只用于本项目,不得用于供应商通用模型训练或其他客户服务,除非企业明确同意并设置边界。
律师建议
江苏鑫律联律师事务所建议,企业建立一张“大模型数据来源合规表”:数据名称、来源主体、取得方式、授权文件、个人信息风险、作品或数据库风险、保密风险、使用目的、模型供应商、是否跨境、是否面向公众、删除退出机制。
这张表不是法务独用文件,而是业务、技术、采购、合规和管理层共用的上线底稿。表格做完后,企业才能判断哪些数据可以进训练集,哪些只能做检索,哪些要先脱敏或匿名化,哪些应直接排除。
本文为江苏鑫律联律师事务所数据合规实务观察,属于一般法律信息参考,不构成针对具体项目的法律意见,也不替代正式咨询。具体项目应结合数据来源、授权合同、个人信息处理关系、模型用途、供应商安排和最新监管规则个案判断。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《中华人民共和国著作权法》
- [5] 《生成式人工智能服务管理暂行办法》