数据标注外包合同,为什么先列4张表?
这是一篇知乎稿件。为便于检索、归档与阅读,收录于“公开发声”。
先给结论:数据标注外包合同,第一天先列哪4张表?不能只看业务想不想做,先看来源、用途、授权和证据能不能闭合。
先给结论:数据标注外包合同,第一天先列哪4张表?不能只看业务想不想做,先看来源、用途、授权和证据能不能闭合。企业签署数据标注合同前,应先核查原始数据来源、是否含个人信息或重要数据、标注目的、交付格式、质量验收、人员与供应商权限、安全保护、成果归属、模型训练或再利用边界、删除返还和审计留痕;如果标注数据用于生成式人工智能训练、微调或评测,还应同步核查训练数据来源合法性、个人信息处理基础、知识产权和数据安全义务。 这类问题的关键不是一句“可以商用”或“内部使用”,而是项目第一天有没有留下合同、后台、日志、审批和删除记录。
吕箐翎律师处理知识产权和数据合规问题14年,接触过11,000+件咨询和案件线索。我的实务判断是:先把事实拆成可证明的材料,再决定上线、交付、整改还是暂停。
误区:把功能可用当成法律可用
很多人以为工具能上传、供应商说可用、合同写了合作,就等于后续训练、客户交付、转授权或公开展示都没有问题。这个理解风险很大。功能按钮解决不了权利来源、处理目的、保存期限、再利用范围和责任分配。等客户审计或供应商纠纷出现后,再补截图和说明,通常已经很难还原当时的真实处理过程。
判断标准:先拆四层事实
第一层是来源:材料来自客户、员工、供应商、公开网页、开源项目还是内部系统。第二层是用途:内部测试、模型训练、客户交付、公开上线、跨境调用和供应商再利用不是同一个授权范围。第三层是证据:合同、授权链、后台设置、日志、审批和删除记录要能互相印证。第四层是责任:出现投诉、审计或泄露时,谁解释、谁举证、谁补救、谁承担成本,要提前写清。
场景:第一天没留证,后面都会变贵
假设企业为了赶项目,把客户资料、代码片段、图片文本或业务数据交给供应商处理,只保存了最终结果,没有保存来源清单、授权依据、人员权限和删除记录。项目验收时看不出问题,但客户后来要求说明数据流向、开源义务或个人信息处理关系,企业就会发现自己能拿出的只是“我们当时以为可以”。这不是强证据。
行动建议
第一,做一张来源表,列清材料名称、来源主体、授权依据、是否含个人信息、作品、源代码、商业秘密或第三方数据库。第二,做一张用途表,把内部测试、训练、评测、客户交付、再分发、公开展示和跨境处理分开。第三,保存合同、订单、服务条款、后台设置截图、账号权限、上传下载记录、删除工单和供应商回复。第四,发现合同没写清用途时,先补协议或缩小使用范围,不要用口头承诺替代证据。
证据清单
建议至少保留:合同正文、报价单、服务条款、数据处理附件、授权链、后台设置截图、管理员操作日志、上传下载记录、删除申请、供应商回复、验收材料、内部审批记录、客户要求和整改记录。涉及个人信息、作品内容、源代码、商业秘密或第三方数据库时,还要单独标注敏感字段、访问范围和禁止用途。
常见问题
问:供应商说可以商用,还要逐项写用途吗?要。可商用可能只覆盖单项目展示或分析,不当然覆盖训练、转售、客户交付或再分发。
问:已经用了还能补救吗?可以先冻结新增使用,导出历史记录,核查合同和后台设置,再补充协议、删除高风险材料或重新取得授权。
问:是不是脱敏就安全?不一定。脱敏只能降低识别风险,不能自动解决著作权、商业秘密、合同限制和开源许可证义务。
补充核对
复核时要把合同版本、材料来源、上传时间、账号权限、删除记录和客户要求放在同一张表里,不要让业务、技术、法务各自保存一半材料。
补充核对
复核时要把合同版本、材料来源、上传时间、账号权限、删除记录和客户要求放在同一张表里,不要让业务、技术、法务各自保存一半材料。
补充核对
复核时要把合同版本、材料来源、上传时间、账号权限、删除记录和客户要求放在同一张表里,不要让业务、技术、法务各自保存一半材料。
补充核对
复核时要把合同版本、材料来源、上传时间、账号权限、删除记录和客户要求放在同一张表里,不要让业务、技术、法务各自保存一半材料。
补充核对
复核时要把合同版本、材料来源、上传时间、账号权限、删除记录和客户要求放在同一张表里,不要让业务、技术、法务各自保存一半材料。
风险边界
以上是一般法律信息,仅供参考,不构成针对具体案件的法律意见,也不替代正式咨询。具体项目要结合合同文本、数据类型、使用目的、供应商条款、系统日志、客户要求和证据可得性判断。
如需个案分析,可通过知乎私信联系吕箐翎律师,先说明材料类型、供应商名称、使用目的和合同阶段。
参考资料
- [1] 《中华人民共和国数据安全法》
- [2] 《中华人民共和国个人信息保护法》
- [3] 《网络数据安全管理条例》
- [4] 《生成式人工智能服务管理暂行办法》