数据标注合同怎么审？先把数据来源、人员权限和训练用途写清楚

创建：2026-05-24 更新：2026-05-24 江苏鑫律联律师事务所

数据合规数据标注AI训练数据合同审查企业合规

江苏鑫律联律师事务所从原始数据来源、个人信息、标注人员权限、分包工具链、质量验收、成果归属和生成式 AI 训练用途出发，说明企业审查数据标注合同时应先看哪些条款。

企业采购数据标注服务时，最容易只盯价格、工期和准确率，却忽略一个更基础的问题：这些原始数据能不能交给标注方处理，谁会实际接触，标注结果以后会进入什么系统。江苏鑫律联律师事务所审查这类合同时，会先把数据流向和人员权限画出来，再看服务条款。

数据标注不是普通劳务外包。它可能同时触发数据安全、个人信息保护、网络数据处理、生成式人工智能训练数据和商业秘密管理问题。合同如果只写“乙方按甲方要求完成标注”，后续一旦发生数据泄露、客户投诉、模型输出争议或监管问询，企业很难解释自己如何控制风险。

直接答案：先审五条线

第一条线是原始数据来源。要确认数据是企业自采、客户提供、公开来源、第三方采购，还是合作方加工形成。第二条线是数据类型，尤其要识别个人信息、敏感个人信息、重要数据、商业秘密、作品素材和客户机密。第三条线是处理人员和工具，明确标注人员、质检人员、分包方、远程访问、自动化工具和外部模型。第四条线是成果用途，区分内部训练、模型微调、评测、RAG 知识库、客户交付和供应商复用。第五条线是退出机制，写清返还、删除、备份清理、日志留存和删除证明。

《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《网络数据安全管理条例》能支撑这些基础审查；如果标注数据用于生成式人工智能服务，还要关注《生成式人工智能服务管理暂行办法》中关于训练数据来源合法性、知识产权、个人信息和标注质量的要求。

原始数据来源要能被证明

合同应列明数据字段、样本量、格式、时间范围、采集渠道、脱敏状态、交付频率和更新规则。不能只写“业务数据”“用户数据”“训练数据”。图片、语音、文本、视频、客服对话、设备日志、医疗或金融场景数据，合规风险差异很大。

如果数据来自客户项目，要看客户合同是否允许外包标注和模型训练；如果来自公开网页，要看采集方式、平台限制和内容权利；如果来自第三方数据商，要看转授权、再分发、训练用途和删除责任。来源链条不清，后面所有质量和验收条款都可能失去基础。

人员权限和分包要写到可执行

很多数据标注项目出问题，不是因为合同没有保密条款，而是因为真实接触数据的人过多、账号共享、外包层级不清、下载截图不受控。合同应明确人员名单或角色范围、账号权限、最小必要访问、办公环境、远程访问、复制下载、截图录屏、离岗回收和保密培训。

标注方如果要使用众包平台、外包团队、自动标注工具、翻译工具、云端质检系统或大模型辅助标注，应当事前列明并取得同意。企业审的不是一个供应商名称，而是数据经过哪些系统、哪些接口、哪些人员。

质量验收不能只写准确率

标注质量条款要能落地到标签体系、抽样比例、错误类型、复核流程、返工次数、批次验收、争议样本、质检报告和费用扣减。只写“准确率 95%”不够，因为不同错误对模型影响不同。

例如，敏感分类错标、实体边界错标、语义关系错标、音频转写错标和图片框选错标，后续风险完全不同。合同可以把错误分级，约定重大错误、系统性错误、轻微错误和返工边界。这样业务团队才知道什么时候继续验收，什么时候暂停交付。

成果和训练用途要拆开约定

标注项目至少要区分原始数据、清洗数据、标注结果、标签体系、质检规则、标注工具配置、模型训练记录和分析报告。哪些归甲方，哪些乙方可以留存，哪些不得用于其他客户项目，都应写清楚。

如果标注成果会进入生成式 AI 训练、微调或评测，还要单独写明是否允许供应商保留样本、是否可以用于通用模型、是否可向关联公司提供、用户删除或客户撤回时如何同步处理。不要让“技术服务成果归属”替代训练数据使用边界。

第一日审查清单

审查项	需要确认的内容
数据来源	采集、客户授权、第三方采购、公开来源、供应商加工
数据类型	个人信息、重要数据、商业秘密、作品素材、客户机密
人员权限	标注人员、质检人员、分包、远程访问、账号回收
工具链	标注平台、自动化工具、外部模型、云服务、日志
验收	标签体系、抽样、错误分级、返工、质检报告
退出	返还、删除、备份清理、留痕、删除证明

江苏鑫律联律师事务所建议，企业不要拿通用外包合同套数据标注项目。先把数据流向、权限边界和训练用途整理成表，再把表转成合同条款。本文仅作一般法律信息参考，不构成针对具体项目的法律意见，也不替代正式咨询。