大模型数据来源合规审查第一天：先建来源、用途和退出表

创建：2026-05-20 更新：2026-05-28 江苏鑫律联律师事务所

数据合规AI合规大模型训练数据

江苏鑫律联律师事务所说明企业做大模型训练、微调、RAG、智能客服或文档问答前，如何核查自有数据、客户数据、公开数据、第三方数据集和模型供应商处理边界。

企业做大模型训练、微调、RAG 知识库、智能客服、文档问答或内部知识助手时，最常见的风险不是模型已经上线，而是数据进入系统前没有分清来源、用途和退出。江苏鑫律联律师事务所的判断是，第一天不要先问“这些资料能不能训”，而要先做来源、用途和退出表。

“网上能看到”“客户已经给了”“供应商说可商用”“只是内部测试”，都不能直接推出可以进入训练集。大模型数据来源合规要同时看个人信息、作品和数据库权益、客户保密义务、供应商再训练、公众服务触发、跨境访问和删除退出。

直接答案

大模型数据来源合规审查第一天，不应先把资料倒进训练集，而应先建来源、用途和退出表：每批数据都要记录来源主体、授权文件、是否含个人信息或作品、适用训练/微调/RAG/评测哪一类用途、供应商是否可留存或再训练、项目结束后如何删除、替换和出具证明。

这张表不是法务留档，而是业务、技术、采购、合规和管理层共同使用的上线底稿。没有表，就无法判断数据应进入训练、微调、RAG、评测还是直接排除。

企业自有数据可能包括合同、工单、客服记录、知识库、销售线索、设备日志、项目文档、代码库和员工上传文件。自有不等于无限使用，因为里面可能包含客户个人信息、员工信息、第三方素材、客户保密资料或合同限制。

如果原始收集目的只是履行合同、售后服务或内部管理，直接转为模型训练、算法优化或客户交付，可能超出原目的。第一天应先判断是否需要脱敏、匿名化、权限隔离、客户确认或排除部分字段。

客户提供的合同、客服记录、工单、图片、录音、交易日志和知识库，不能因为客户交给企业处理，就自动允许沉淀到通用模型能力。要看合同是否允许训练、微调、评测、RAG、供应商处理、跨境访问和项目结束后的保留。

只要材料能够识别特定个人，就要审查处理目的、必要性、告知同意或其他处理依据、敏感个人信息、第三方提供和删除请求。删除姓名和手机号但仍可通过账号、语音、图片、订单组合识别个人，不能简单写成已经匿名化。

公开网页、文章、图片、视频、代码、论坛问答、公开数据库和行业报告，公开可访问不等于可以复制、训练、商用、再分发或对客户交付。企业要看著作权、网站条款、接口规则、抓取方式、商业秘密和反不正当竞争风险。

第三方采购数据集还要看供应商是否有权提供训练用途授权。合同写“可商用”仍然不够，最好明确是否覆盖训练、微调、评测、RAG、模型输出、客户项目交付、再分发、删除替换和侵权追偿。

不同用途不能只放进同一个“知识库”文件夹。训练可能影响模型能力形成，RAG 更接近检索调用，评测集强调版本和泄露控制，内部测试不能自动升级成客户交付。

企业把数据上传给模型 API、私有化部署厂商、标注团队、向量数据库、云服务或外包团队时，要审查供应商是否保留输入输出、是否用于自身训练、保存期限多长、是否有子处理者、是否跨境传输、是否支持删除、审计和投诉协助。

合同里应写清：数据只用于本项目，不得用于供应商通用模型训练或其他客户服务；项目结束、客户撤回、投诉成立或字段被认定高风险时，供应商应删除、返还、停用或替换，并提供可核验记录。

如果数据来源表还不完整，企业不要向客户承诺模型输出一定可商用、训练语料完全无权利瑕疵、公开数据可无限复用、供应商数据可继续转授权或个人信息已经彻底匿名。更稳的写法是列出用途限制和不能承诺范围。

例如：只允许内部检索，不允许训练通用模型；只允许当前客户项目，不允许再分发；只允许保留向量索引，不保留原文；收到权利人或个人信息请求时，企业可删除、替换、降级或暂停相关批次。

大模型项目的删除退出要拆对象：原始数据、清洗数据、标注数据、向量、提示词、日志、输出样本、备份、供应商缓存和客户交付版本。只写“项目结束后删除数据”，不足以证明退出已经执行。

删除证明应包括批次、路径、执行人、时间、备份处理、下游同步、供应商确认、客户通知和复核记录。不能删除的模型能力影响，也要通过停用、隔离、再训练排除、输出过滤或合同风险提示处理。

江苏鑫律联律师事务所可协助企业建立大模型数据来源合规表、训练/RAG 用途矩阵、供应商数据处理条款、客户交付 negative scope、删除退出证明和投诉响应证据包。服务目标是让数据来源、用途、供应商处理和退出责任可审查，而不是承诺某个训练项目一定通过监管、一定无侵权或一定可以公开商用。

本文仅作一般法律信息参考，不构成针对具体大模型数据来源、训练项目、RAG 知识库或供应商合同的法律意见，也不替代正式咨询。