客户数据训练AI先查三件事
企业把客户资料、公开网页、作品素材或第三方数据用于 AI 训练、微调、评测或 RAG 前,应先完成来源、权利和处理关系三层核查。
导语
最近很多企业在做 AI 客服、内部知识库、销售线索分析和内容生成工具。技术部门常问的是:这些客户资料、网页数据、历史合同、图片文案,能不能直接拿来训练模型?真正麻烦的是,项目一旦上线,客户追问、权利人投诉或供应商再训练边界说不清,补授权和补合同都会变得被动。
吕箐翎律师的实务判断是,先别急着把问题交给技术团队。她执业 14 年,接触过 11,000+ 件咨询和案件线索;AI 训练数据的风险不只在“有没有个人信息”,还同时涉及作品授权、数据库和数据集权益、商业秘密、客户合同、供应商再训练、数据出境和删除退出。企业真正要先做的,是把数据来源、权利边界和处理关系拆清楚。
一、第一件事:先查数据从哪里来
同样是训练数据,来源不同,风险完全不同。
第一类是企业自有业务数据,比如客户工单、合同、订单、通话录音、客服聊天、售后记录、产品图片和用户行为日志。这类数据看似在企业系统里,但仍要查客户合同、隐私告知、保密义务和内部权限。
第二类是公开数据,比如网页文章、图片、短视频、商品页面、论坛内容、开源项目和公开报告。公开可见不等于可以自由复制、建库、训练或商用。网页条款、作品权利、平台规则和自动化采集限制,都可能影响使用边界。
第三类是第三方交付数据,比如数据供应商、合作方、外包团队、客户项目资料和历史素材包。这里最常见的风险,是合同只允许项目分析或内部研究,却没有覆盖模型训练、微调、评测、向量库、再分发和客户项目交付。
企业可以先做一张来源表:数据名称、来源主体、取得方式、合同或条款、是否含个人信息、是否含作品或商业秘密、是否允许训练、是否允许给供应商处理、是否允许删除后继续保留模型能力。
二、第二件事:再查里面有什么权利
AI 训练数据不是一个单一法律对象。它可能同时包含多层权益。
文字、图片、视频、音乐、代码、设计图和说明文档,可能涉及著作权或邻接权益。数据表、标签规则、字段结构、清洗加工说明和接口文档,可能涉及选择编排、合同权益或商业秘密。客户名单、报价、采购周期、联系人决策链、项目预算,可能涉及商业秘密和客户保密义务。客户聊天、地址、电话、订单、语音图片和设备信息,可能涉及个人信息。
很多风险不是来自某一条法,而是来自叠加。比如企业把客户工单用于训练智能客服:工单里有个人信息,有客户商业内容,有员工处理记录,也可能有第三方图片或文档。只做一个“脱敏”动作,不一定覆盖全部风险。
吕箐翎律师通常会建议企业把数据拆成四列:作品素材、个人信息、商业秘密、合同限制。每列都写出证据来源和处理方式,而不是笼统写“数据已合规”。
三、第三件事:最后查 AI 怎么处理这些数据
训练、微调、评测、RAG 和普通提示词调用,不是同一件事。
如果只是本地隔离环境里用少量脱敏样本测试,风险和把真实客户资料上传给外部模型完全不同。如果供应商承诺不保存、不训练,要看合同、产品设置、日志、后台选项和删除机制,而不是只看销售口头说明。
企业还要问清楚:数据是否会被供应商保存?是否用于改进基础模型?是否用于服务其他客户?是否会被境外团队访问?输出内容是否需要人工复核?客户要求删除时,训练集、向量库、日志和备份如何处理?如果输出侵犯他人权利,供应商是否承担协助和追偿责任?
这些问题如果不写进采购合同、数据处理协议或 AI 使用规范,后续很难追责。
四、一个真实业务场景
假设一家企业想用历史客户工单训练客服模型。
第一步,不是先上传全部工单,而是抽样看工单内容。里面是否有姓名、手机号、地址、订单号、投诉详情、图片、录音、客户技术资料或商业信息。
第二步,看客户合同和隐私告知。客户提交工单时,是否知道这些材料会被用于模型训练或产品优化?如果原目的只是售后服务,直接扩大到训练目的就要谨慎。
第三步,看供应商设置。模型供应商是受托处理,还是独立接收数据?输入输出是否保存?是否默认用于再训练?是否有国内外访问链路?是否能按客户要求删除?
第四步,看输出风险。客服模型回答是否可能泄露其他客户信息、复述原始工单、生成不准确法律或技术承诺。这里需要权限控制、日志留存、人工复核和高风险问题转人工机制。
五、企业可以马上做的三张表
第一张,数据来源表。列明数据从哪里来、谁交付、合同依据是什么、是否可用于训练、是否可给第三方处理。
第二张,权利风险表。列明是否涉及作品、代码、图片、视频、数据库结构、商业秘密、个人信息、重要数据和客户保密义务。
第三张,AI 处理表。列明训练、微调、评测、RAG、供应商保存、再训练、出境访问、日志留存、删除退出和输出复核。
这三张表的作用不是增加流程负担,而是让企业在供应商采购、客户交付、产品上线和争议应对时有证据可查。
六、合同里至少补五个条款
第一,数据用途条款。明确数据是否可用于训练、微调、评测、RAG、产品优化和客户项目交付。
第二,权利来源条款。供应商或合作方应说明数据来源、授权范围、第三方权益和侵权追偿安排。
第三,个人信息处理条款。明确处理目的、方式、个人信息种类、保存期限、安全措施、委托处理或第三方提供关系。
第四,模型再训练条款。明确输入输出是否进入供应商训练集,是否服务其他客户,是否可关闭,关闭后如何验证。
第五,删除和退出条款。客户撤回、合同终止、数据错误或权利争议发生后,训练集、向量库、日志和备份如何删除或隔离。
结尾
AI 训练数据合规,不是简单地问“能不能用”,而是问“这批数据从哪里来、里面有什么权利、被谁怎么处理、出了问题谁负责”。
如果企业现在已经在使用外部 AI 工具,建议先从高风险数据做一次回看:客户资料、合同、客服记录、图片视频、代码、供应商数据和境外模型调用。先把风险表补起来,比出了投诉或客户质疑后再解释要稳得多。
以上是一般法律信息,仅供参考,不构成针对具体案件的法律意见,也不替代正式咨询。欢迎关注本号,后续会继续拆解企业 AI 数据合规、知识产权授权和商业秘密保护问题。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《中华人民共和国个人信息保护法》
- [4] 《生成式人工智能服务管理暂行办法》
- [5] 《促进和规范数据跨境流动规定》
- [6] 《网络数据安全管理条例》