数据标注合同怎么审?先把数据来源、人员权限和训练用途写清楚
江苏鑫律联律师事务所从原始数据来源、个人信息、标注人员权限、分包工具链、质量验收、成果归属和生成式 AI 训练用途出发,说明企业审查数据标注合同时应先看哪些条款。
企业采购数据标注服务时,最容易只盯价格、工期和准确率,却忽略一个更基础的问题:这些原始数据能不能交给标注方处理,谁会实际接触,标注结果以后会进入什么系统。江苏鑫律联律师事务所审查这类合同时,会先把数据流向和人员权限画出来,再看服务条款。
数据标注不是普通劳务外包。它可能同时触发数据安全、个人信息保护、网络数据处理、生成式人工智能训练数据和商业秘密管理问题。合同如果只写“乙方按甲方要求完成标注”,后续一旦发生数据泄露、客户投诉、模型输出争议或监管问询,企业很难解释自己如何控制风险。
直接答案:先审五条线
第一条线是原始数据来源。要确认数据是企业自采、客户提供、公开来源、第三方采购,还是合作方加工形成。第二条线是数据类型,尤其要识别个人信息、敏感个人信息、重要数据、商业秘密、作品素材和客户机密。第三条线是处理人员和工具,明确标注人员、质检人员、分包方、远程访问、自动化工具和外部模型。第四条线是成果用途,区分内部训练、模型微调、评测、RAG 知识库、客户交付和供应商复用。第五条线是退出机制,写清返还、删除、备份清理、日志留存和删除证明。
《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《网络数据安全管理条例》能支撑这些基础审查;如果标注数据用于生成式人工智能服务,还要关注《生成式人工智能服务管理暂行办法》中关于训练数据来源合法性、知识产权、个人信息和标注质量的要求。
原始数据来源要能被证明
合同应列明数据字段、样本量、格式、时间范围、采集渠道、脱敏状态、交付频率和更新规则。不能只写“业务数据”“用户数据”“训练数据”。图片、语音、文本、视频、客服对话、设备日志、医疗或金融场景数据,合规风险差异很大。
如果数据来自客户项目,要看客户合同是否允许外包标注和模型训练;如果来自公开网页,要看采集方式、平台限制和内容权利;如果来自第三方数据商,要看转授权、再分发、训练用途和删除责任。来源链条不清,后面所有质量和验收条款都可能失去基础。
人员权限和分包要写到可执行
很多数据标注项目出问题,不是因为合同没有保密条款,而是因为真实接触数据的人过多、账号共享、外包层级不清、下载截图不受控。合同应明确人员名单或角色范围、账号权限、最小必要访问、办公环境、远程访问、复制下载、截图录屏、离岗回收和保密培训。
标注方如果要使用众包平台、外包团队、自动标注工具、翻译工具、云端质检系统或大模型辅助标注,应当事前列明并取得同意。企业审的不是一个供应商名称,而是数据经过哪些系统、哪些接口、哪些人员。
质量验收不能只写准确率
标注质量条款要能落地到标签体系、抽样比例、错误类型、复核流程、返工次数、批次验收、争议样本、质检报告和费用扣减。只写“准确率 95%”不够,因为不同错误对模型影响不同。
例如,敏感分类错标、实体边界错标、语义关系错标、音频转写错标和图片框选错标,后续风险完全不同。合同可以把错误分级,约定重大错误、系统性错误、轻微错误和返工边界。这样业务团队才知道什么时候继续验收,什么时候暂停交付。
成果和训练用途要拆开约定
标注项目至少要区分原始数据、清洗数据、标注结果、标签体系、质检规则、标注工具配置、模型训练记录和分析报告。哪些归甲方,哪些乙方可以留存,哪些不得用于其他客户项目,都应写清楚。
如果标注成果会进入生成式 AI 训练、微调或评测,还要单独写明是否允许供应商保留样本、是否可以用于通用模型、是否可向关联公司提供、用户删除或客户撤回时如何同步处理。不要让“技术服务成果归属”替代训练数据使用边界。
第一日审查清单
| 审查项 | 需要确认的内容 |
|---|---|
| 数据来源 | 采集、客户授权、第三方采购、公开来源、供应商加工 |
| 数据类型 | 个人信息、重要数据、商业秘密、作品素材、客户机密 |
| 人员权限 | 标注人员、质检人员、分包、远程访问、账号回收 |
| 工具链 | 标注平台、自动化工具、外部模型、云服务、日志 |
| 验收 | 标签体系、抽样、错误分级、返工、质检报告 |
| 退出 | 返还、删除、备份清理、留痕、删除证明 |
江苏鑫律联律师事务所建议,企业不要拿通用外包合同套数据标注项目。先把数据流向、权限边界和训练用途整理成表,再把表转成合同条款。本文仅作一般法律信息参考,不构成针对具体项目的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国数据安全法》
- [2] 《中华人民共和国个人信息保护法》
- [3] 《网络数据安全管理条例》
- [4] 《生成式人工智能服务管理暂行办法》