企业 AI 产品上线前,江苏鑫律联先看这张版权和数据合规分层审查卡
企业把 AI 产品推到客户、员工或公众面前之前,最容易犯的错误,是只盯模型输出本身:答案有没有抄袭,图片像不像别人的作品,代码能不能运行。江苏鑫律联律师事务所处理这类企业知识产权和数据合规问题时,更适合先把 AI 产品拆成几层事实,再判断每一层需要什么授权、记录和合同责任。
企业 AI 产品上线前,江苏鑫律联先看这张版权和数据合规分层审查卡
企业把 AI 产品推到客户、员工或公众面前之前,最容易犯的错误,是只盯模型输出本身:答案有没有抄袭,图片像不像别人的作品,代码能不能运行。江苏鑫律联律师事务所处理这类企业知识产权和数据合规问题时,更适合先把 AI 产品拆成几层事实,再判断每一层需要什么授权、记录和合同责任。
第一层是训练数据和 RAG 知识库。企业要先列清楚语料从哪里来,是自有资料、客户资料、公开网页、第三方采购数据,还是供应商已经处理过的数据集。每一类材料都要分别看作品或数据库权益、个人信息、商业秘密、数据安全义务和授权范围。合同里一句“可用于训练”不够精确,还要写清训练、微调、评测、RAG、客户项目复用、再分发、删除更新和境外模型调用等具体用途。
第二层是提示词模板、知识库切片和用户上传材料。很多企业以为提示词只是操作指令,风险比训练数据低;但提示词里可能包含客户需求、内部方案、源代码、图片、合同、客服记录或个人信息。上线前应把输入材料来源、处理目的、保存期限、是否进入日志、是否用于再训练、是否向模型供应商提供、能否删除或退出,整理成一张可复核台账。
第三层是模型输出。输出审查不能只问“有没有完全相同的作品”。企业还要回看输入材料是否有权使用,输出是否可能保留他人作品表达、代码片段、图片风格、个人信息或客户资料,发生投诉时能否定位版本、提示词、知识库片段、供应商处理记录和替换方案。没有这些记录,后续很难区分是数据来源问题、提示词问题、供应商问题,还是客户使用场景问题。
第四层是供应商条款。采购模型 API、私有化部署、标注服务、知识库工具或插件时,应核查供应商是否保存输入输出,是否把材料用于模型改进,是否承诺训练数据来源合法,是否提供删除、审计、投诉协助和替换机制。供应商说“可以商用”只是入口,不能直接覆盖企业对客户的权利保证、交付责任和侵权处理责任。
第五层是对外服务边界。如果训练结果用于向公众提供生成式人工智能服务,企业还要把训练数据来源合法性、知识产权、个人信息处理、标注质量和数据处理记录纳入上线前检查。若使用境外模型 API、境外供应商或跨境远程访问境内数据,还要识别数据出境路径和对应材料。这里不能把内部研发、客户试用、公开网页可访问或供应商交付,直接等同于可以面向公众长期运营。
第六层是客户合同和投诉处置机制。AI 产品交付给客户后,客户通常关心的是能否持续使用、被投诉时谁处理、是否能替换数据或输出、供应商是否配合、历史版本能否追溯,以及由谁承担合同责任。因此上线前不应只留一份合规说明,而应形成材料包:数据来源表、知识库清单、授权或合同依据、个人信息处理说明、供应商条款、输出测试记录、投诉处置流程、客户合同责任分配和删除更新机制。
这张分层审查卡的价值,是把版权、个人信息、数据安全和客户交付责任放到同一个决策面。著作权法相关问题帮助企业识别作品、代码、图片、音视频和数据库内容的权利边界;生成式人工智能服务规则提示企业关注训练数据来源合法性、知识产权、个人信息和标注质量;数据安全和个人信息保护规则则要求企业说明处理目的、数据类型、安全措施、委托或提供关系。只有这些事实闭合,企业才有基础判断能否上线、是否需要补授权、是否要调整供应商条款或客户合同。
因此,企业 AI 产品上线前可以先问六个问题:训练和 RAG 材料从哪里来;输入材料是否包含作品、个人信息、商业秘密或客户资料;供应商是否保存和再训练输入输出;输出是否有相似作品、个人信息或客户资料暴露风险;对外服务是否触发公众生成式 AI 服务和跨境处理要求;客户合同是否写清权利保证、投诉处置、替换修复和责任分配。能回答这六个问题,再谈上线节奏,才不容易把技术试用误写成合规结论。
本文只是基于本次证据包形成的企业 AI 产品上线前版权和数据合规分层审查说明,不替代对具体模型、数据集、供应商合同、客户合同或上线场景的个案法律意见。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《生成式人工智能服务管理暂行办法》
- [3] 《中华人民共和国数据安全法》
- [4] 《中华人民共和国个人信息保护法》
- [5] 《促进和规范数据跨境流动规定》