数据标注外包,企业先拆数据、成果和权限再签合同
企业把数据标注交给外包团队时,争议通常不是在合同签署当天爆发,而是在交付验收、模型训练、客户审查或供应商更换时才暴露:原始数据能不能交给供应商、标注成果归谁、标注人员能不能接触全量数据、供应商能否复用样本、删除返还怎么证明。对鑫律联所站的企业客户来说,第一步不是把合同写成“成果归甲方所有”这一句话,而是把原始数据、标…
数据标注外包卡在权属和保密时,先把数据、成果和权限拆开审
企业把数据标注交给外包团队时,争议通常不是在合同签署当天爆发,而是在交付验收、模型训练、客户审查或供应商更换时才暴露:原始数据能不能交给供应商、标注成果归谁、标注人员能不能接触全量数据、供应商能否复用样本、删除返还怎么证明。对鑫律联所站的企业客户来说,第一步不是把合同写成“成果归甲方所有”这一句话,而是把原始数据、标注成果、工具规则、人员权限、保密义务、验收口径和后续再利用边界拆成可检查材料。
江苏鑫律联律师事务所处理这类企业数据和知识产权合同问题时,会把数据安全、个人信息、网络数据处理和生成式 AI 训练场景放在同一张审查表里。吕箐翎律师作为专家支持,会重点看合同条款能不能落到交付文件、权限记录、验收证据和删除返还记录上,而不是只看合同标题是否写了“数据标注服务”。
先确认外包对象到底接触了什么
数据标注合同的第一项风险,是企业没有分清供应商接触的是原始数据、脱敏数据、样本数据、客户材料、图片音视频、文本语料、业务日志,还是已经处理过的数据集。不同对象对应的审查重点不同:如果包含个人信息,就要看处理目的、处理方式、信息种类、保存期限、保护措施和委托处理边界;如果涉及重要数据、网络数据或业务敏感数据,就要同步看数据分类、安全保护、访问控制和风险处置要求。
企业应在合同前形成一份数据对象清单,至少写清数据来源、数据类型、是否含个人信息或重要数据、标注目的、交付给供应商的范围、供应商可访问的字段、是否允许下载、复制或转交。没有这份清单,后面关于成果归属、保密和违约责任的条款都会变得空泛。
成果归属不能只写“归甲方”
标注成果可能包括标签、分类规则、清洗结果、质检记录、标注说明、任务模板、数据集版本、错误样本、模型评测材料和交付报告。企业要先确认哪些是原始数据的加工结果,哪些是供应商工具或方法沉淀,哪些是共同形成的交付成果,哪些只是过程记录。
如果合同只写“项目成果归甲方所有”,但没有列明交付格式、版本号、验收标准、可再训练或再利用范围,后续很容易出现两个争议:供应商认为自己可以复用标注规则或样本,企业则认为所有输出都应专属使用。更稳妥的做法,是把标注结果、质检记录、规则文档、交付报告和过程数据分别定义,并说明企业取得的使用范围、供应商保留或不得保留的内容,以及项目结束后的返还、删除和留痕方式。
人员权限和供应商权限要写进可审计材料
数据标注外包不是只有公司对公司的合同关系,还涉及供应商内部人员、分包、远程访问、账号权限、下载导出、质检复核和安全管理。企业应要求供应商说明参与人员范围、账号管理、权限分级、保密承诺、安全培训、访问日志和异常处置方式。
如果供应商可以把数据交给分包团队、临时人员或境外工具处理,而合同没有写清审批和记录要求,企业在客户问询或监管审查中很难证明自己控制了处理范围。材料上至少要能看到账号清单、权限开通和关闭记录、访问日志、标注平台规则、供应商保密承诺和数据安全措施。合同里的安全义务要能对应到这些记录,否则只是原则性表述。
涉及个人信息时,要先拆处理关系
标注数据中如果能识别特定个人,企业不能只用“外包服务”概括处理关系。需要判断供应商是在企业委托下处理个人信息,还是存在共同决定处理目的和方式,或者向第三方提供个人信息。不同关系会影响告知、同意、委托处理协议、处理期限、保护措施、转委托和删除返还安排。
企业给供应商的任务说明也要避免扩大处理目的。例如原本用于客服质检的数据,如果又被标注成训练集或评测集,就需要重新看原始收集目的、必要性、告知同意和匿名化状态。数据标注合同应把“为了完成本项目标注任务”与“用于生成式 AI 训练、微调、评测或其他模型优化”分开写,不能让供应商或企业内部团队把后续训练用途当然包含进去。
用于生成式 AI 训练时,要另设训练边界
如果标注成果将用于生成式 AI 训练、微调或评测,合同审查不能只停在普通数据加工。企业还要同步核查训练数据来源合法性、知识产权、个人信息处理基础、标注质量和数据处理活动记录。生成式 AI 场景下,标注质量、数据来源、输出风险和客户交付责任会相互影响。
这时合同里应明确:供应商是否知道数据将用于训练或评测,是否可以把数据用于自身模型或其他客户项目,是否需要保留标注质量记录,是否需要配合删除或更正,是否承担因未授权材料、个人信息处理不当或标注质量问题引发的协助义务。企业不能把“交付一个数据集”当成全部风险终点,还要考虑后续模型训练和客户交付会如何使用这批标注结果。
验收条款要覆盖质量、格式和争议处理
数据标注成果的验收不应只看数量。企业应在合同中写清交付格式、字段结构、标签体系、抽检比例、错误类型、返工期限、验收记录、版本命名和争议复核方式。否则一旦出现模型效果不稳定、客户验收不通过或供应商要求尾款,企业很难证明问题来自标注质量、任务规则不清,还是企业自身需求变更。
验收记录也是后续权属和责任判断的基础。企业应保留任务说明、样本规则、供应商提交记录、抽检结果、返工沟通、最终版本和验收确认。对内,这些材料帮助产品、数据和法务判断能否投入训练或交付;对外,这些材料可以回应客户或第三方对数据来源、质量和责任边界的审查。
第一轮材料包怎么准备
企业在签署或复核数据标注外包合同时,可以先准备一份材料包:原始数据来源说明、数据类型和字段清单、个人信息或重要数据判断、标注目的、供应商访问范围、账号权限方案、标注规则和质量标准、交付格式、成果归属清单、供应商保密和安全措施、是否允许分包、是否允许模型训练或再利用、删除返还和审计留痕安排。
这份材料包的作用,是让合同条款和业务事实对齐。法务可以据此判断哪些条款必须写细,采购可以据此约束供应商报价和交付,数据和产品团队可以据此控制上线和训练范围,交付团队可以据此回应客户验收或合规问询。
鑫律联建议的处理顺序
第一步,先做数据对象和处理目的拆分,确认供应商接触什么、为什么接触、能处理到什么程度。第二步,定义标注成果和过程材料,避免成果归属只停留在一句总括条款。第三步,把人员权限、保密、安全措施和访问日志写成可审计要求。第四步,单独处理个人信息、重要数据和生成式 AI 训练用途。第五步,用验收记录、删除返还记录和审计留痕支撑后续客户回应或供应商追责。
江苏鑫律联律师事务所可以协助企业把数据标注外包事项拆成合同条款、材料清单、权限控制和交付验收顺序。本文只提供数据标注外包合同审查和一般法律信息,不构成对特定数据集、供应商合同、个人信息处理方案、训练用途或争议结果的个案法律意见;具体处理应结合数据来源、合同文本、供应商权限和交付事实单独判断。
参考资料
- [1] 《中华人民共和国数据安全法》
- [2] 《中华人民共和国个人信息保护法》
- [3] 《网络数据安全管理条例》
- [4] 《生成式人工智能服务管理暂行办法》