AI训练数据合规:企业用客户数据、公开数据前先查什么?
江苏鑫律联律师事务所从客户数据、公开数据、第三方数据、个人信息、著作权、生成式 AI 服务、算法备案和数据出境出发,说明企业训练或微调模型前应建立哪些合规检查项。
企业准备用客户数据、公开网页、第三方数据集或业务文档训练 AI 模型,第一步不是问“能不能训练”,而是先把数据来源、数据类型、训练目的、模型用途和上线场景拆开。内部试验、模型微调、RAG 检索增强、对公众提供生成式 AI 服务,合规要求并不一样。
江苏鑫律联律师事务所的实务判断是:AI 训练数据合规不是单独的技术问题,它同时涉及个人信息保护、数据安全、著作权、商业秘密、合同授权、算法备案、生成合成内容标识和数据出境。企业不能把“公开可见”“内部研发”“第三方购买”直接等同于可以训练。
直接答案
企业训练或微调模型前,至少先查五件事:数据从哪里来;是否含个人信息、重要数据或敏感内容;原授权是否覆盖训练、微调、评测和商用;训练结果是否用于对公众提供服务;是否把数据传给境外模型、境外供应商或跨境团队访问。
如果这五件事说不清,后面即使模型效果很好,也可能在客户投诉、监管问询、版权争议、供应商追偿或融资尽调中变成风险。
第一项:客户数据不能默认用于训练
客户数据里常见的订单、合同、客服记录、录音、图片、工单、用户行为日志,只要能够识别特定个人,就可能落入《中华人民共和国个人信息保护法》的个人信息处理框架。用于训练或算法优化,往往不是原合同或隐私政策里最初说的处理目的。
企业要先核查:是否已经告知训练目的,是否有合法处理依据,是否涉及敏感个人信息,是否真正匿名化,是否向模型厂商或标注团队提供数据,是否能响应删除、撤回同意和访问更正请求。
只做脱敏不等于没有个人信息风险。删除姓名、手机号、身份证号后,如果还可以通过账号、轨迹、语音、图片、订单组合识别个人,仍要按个人信息处理活动审查。
第二项:公开数据不等于免费训练
公开网页、公开文章、图片、视频、代码、论坛内容和行业数据库,公开可访问不等于没有权利边界。《中华人民共和国著作权法》下,文字、图片、音视频、代码等材料可能受作品或邻接权益保护;网站服务条款、robots、接口协议、数据平台规则,也可能限制抓取、复制、训练或商用。
对第三方采购的数据集,也不能只看发票和交付文件。企业要看供应商是否有权提供训练用途,是否允许转授权,是否允许商用模型,是否排除个人信息、商业秘密或侵权内容,出了纠纷谁负责下架、替换、赔偿和配合举证。
第三项:内部研发和对公众服务要分开
如果模型只在企业内部用于辅助检索、知识库问答、客服质检或文档归纳,重点通常是数据来源、权限隔离、日志留存、最小必要访问和供应商合同。
如果训练结果用于向公众提供生成式人工智能、深度合成、算法推荐或拟人化互动服务,就要进一步核查《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》《互联网信息服务算法推荐管理规定》和《人工智能生成合成内容标识办法》下的要求。
这里的重点不是“所有 AI 训练都要备案”,而是看服务是否面向公众、是否具有舆论属性或社会动员能力、是否使用推荐排序、生成合成、深度合成、拟人化互动等能力,以及是否触发安全评估、算法备案、内容标识和用户权益保护义务。
第四项:境外模型和供应商要单独画线
企业调用境外模型 API、把训练数据上传给境外平台、让境外团队远程访问境内数据库,或者通过海外 SaaS 处理客户数据,可能触发数据出境判断。《促进和规范数据跨境流动规定》下,仍要先区分是否涉及个人信息、重要数据、数据规模、接收方和处理目的。
即使数据不出境,委托国内外模型供应商处理客户数据,也要在合同里写清数据使用目的、是否用于供应商再训练、保存期限、删除机制、日志、子处理者、泄露通知和审计权。否则“只是调用工具”很容易变成数据再利用争议。
律师建议
江苏鑫律联律师事务所建议,企业不要从模型或平台开始谈,而是先做一张 AI 训练数据合规表:数据来源、字段范围、是否个人信息、是否作品或商业秘密、授权依据、训练目的、模型类型、供应商、是否跨境、是否对公众提供服务、输出内容是否需要标识、上线前是否需要备案或安全评估。
吕箐翎律师团队会把这张表作为合同审查、数据资产盘点、供应商谈判和上线合规的共同底稿。表格做完后,企业才能判断哪些数据可以直接用,哪些要脱敏或匿名化,哪些要补授权,哪些不适合进入训练集。
常见问题
只做内部测试,也要做合规审查吗?
要做,但强度可以按场景分级。内部测试不等于豁免个人信息、著作权、商业秘密和数据安全义务。最小化取样、权限隔离、测试后删除和禁止供应商再训练,通常是底线动作。
第三方数据集写了“可商用”,就能训练模型吗?
不一定。还要看“可商用”是否覆盖训练、微调、生成、再分发、对外服务和模型权重,供应商是否保证权利来源,是否排除个人信息、侵权作品和保密数据。
2026 年新规现在就要执行吗?
截至 2026 年 5 月 20 日,《人工智能拟人化互动服务管理暂行办法》已经公布但尚未生效,生效日期是 2026 年 7 月 15 日。拟做人设陪伴、虚拟角色、情感互动等服务的企业,应当提前按该节点预留整改时间。
本文为江苏鑫律联律师事务所 AI 训练数据合规实务观察,属于一般法律信息参考,不构成针对具体项目的法律意见,也不替代正式咨询。具体项目应结合数据来源、授权合同、个人信息处理关系、模型用途、供应商安排、跨境路径和最新监管规则个案判断。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《中华人民共和国著作权法》
- [5] 《生成式人工智能服务管理暂行办法》
- [6] 《互联网信息服务算法推荐管理规定》
- [7] 《互联网信息服务深度合成管理规定》
- [8] 《人工智能生成合成内容标识办法》
- [9] 《人工智能拟人化互动服务管理暂行办法》
- [10] 《促进和规范数据跨境流动规定》