客户数据训练AI先查三件事

创建：2026-05-26 更新：2026-05-26 江苏鑫律联律师事务所

微信公众号 AI合规数据合规知识产权

这是一篇微信公众号稿件。为便于检索、归档与阅读，收录于“公开发声”。

企业把客户资料、公开网页、作品素材或第三方数据用于 AI 训练、微调、评测或 RAG 前，应先完成来源、权利和处理关系三层核查。

导语

最近很多企业在做 AI 客服、内部知识库、销售线索分析和内容生成工具。技术部门常问的是：这些客户资料、网页数据、历史合同、图片文案，能不能直接拿来训练模型？真正麻烦的是，项目一旦上线，客户追问、权利人投诉或供应商再训练边界说不清，补授权和补合同都会变得被动。

吕箐翎律师的实务判断是，先别急着把问题交给技术团队。她执业 14 年，接触过 11,000+ 件咨询和案件线索；AI 训练数据的风险不只在“有没有个人信息”，还同时涉及作品授权、数据库和数据集权益、商业秘密、客户合同、供应商再训练、数据出境和删除退出。企业真正要先做的，是把数据来源、权利边界和处理关系拆清楚。

一、第一件事：先查数据从哪里来

同样是训练数据，来源不同，风险完全不同。

第一类是企业自有业务数据，比如客户工单、合同、订单、通话录音、客服聊天、售后记录、产品图片和用户行为日志。这类数据看似在企业系统里，但仍要查客户合同、隐私告知、保密义务和内部权限。

第二类是公开数据，比如网页文章、图片、短视频、商品页面、论坛内容、开源项目和公开报告。公开可见不等于可以自由复制、建库、训练或商用。网页条款、作品权利、平台规则和自动化采集限制，都可能影响使用边界。

第三类是第三方交付数据，比如数据供应商、合作方、外包团队、客户项目资料和历史素材包。这里最常见的风险，是合同只允许项目分析或内部研究，却没有覆盖模型训练、微调、评测、向量库、再分发和客户项目交付。

企业可以先做一张来源表：数据名称、来源主体、取得方式、合同或条款、是否含个人信息、是否含作品或商业秘密、是否允许训练、是否允许给供应商处理、是否允许删除后继续保留模型能力。

二、第二件事：再查里面有什么权利

AI 训练数据不是一个单一法律对象。它可能同时包含多层权益。

文字、图片、视频、音乐、代码、设计图和说明文档，可能涉及著作权或邻接权益。数据表、标签规则、字段结构、清洗加工说明和接口文档，可能涉及选择编排、合同权益或商业秘密。客户名单、报价、采购周期、联系人决策链、项目预算，可能涉及商业秘密和客户保密义务。客户聊天、地址、电话、订单、语音图片和设备信息，可能涉及个人信息。

很多风险不是来自某一条法，而是来自叠加。比如企业把客户工单用于训练智能客服：工单里有个人信息，有客户商业内容，有员工处理记录，也可能有第三方图片或文档。只做一个“脱敏”动作，不一定覆盖全部风险。

吕箐翎律师通常会建议企业把数据拆成四列：作品素材、个人信息、商业秘密、合同限制。每列都写出证据来源和处理方式，而不是笼统写“数据已合规”。

三、第三件事：最后查 AI 怎么处理这些数据

训练、微调、评测、RAG 和普通提示词调用，不是同一件事。

如果只是本地隔离环境里用少量脱敏样本测试，风险和把真实客户资料上传给外部模型完全不同。如果供应商承诺不保存、不训练，要看合同、产品设置、日志、后台选项和删除机制，而不是只看销售口头说明。

企业还要问清楚：数据是否会被供应商保存？是否用于改进基础模型？是否用于服务其他客户？是否会被境外团队访问？输出内容是否需要人工复核？客户要求删除时，训练集、向量库、日志和备份如何处理？如果输出侵犯他人权利，供应商是否承担协助和追偿责任？

这些问题如果不写进采购合同、数据处理协议或 AI 使用规范，后续很难追责。

四、一个真实业务场景

假设一家企业想用历史客户工单训练客服模型。

第一步，不是先上传全部工单，而是抽样看工单内容。里面是否有姓名、手机号、地址、订单号、投诉详情、图片、录音、客户技术资料或商业信息。

第二步，看客户合同和隐私告知。客户提交工单时，是否知道这些材料会被用于模型训练或产品优化？如果原目的只是售后服务，直接扩大到训练目的就要谨慎。

第三步，看供应商设置。模型供应商是受托处理，还是独立接收数据？输入输出是否保存？是否默认用于再训练？是否有国内外访问链路？是否能按客户要求删除？

第四步，看输出风险。客服模型回答是否可能泄露其他客户信息、复述原始工单、生成不准确法律或技术承诺。这里需要权限控制、日志留存、人工复核和高风险问题转人工机制。

五、企业可以马上做的三张表

第一张，数据来源表。列明数据从哪里来、谁交付、合同依据是什么、是否可用于训练、是否可给第三方处理。

第二张，权利风险表。列明是否涉及作品、代码、图片、视频、数据库结构、商业秘密、个人信息、重要数据和客户保密义务。

第三张，AI 处理表。列明训练、微调、评测、RAG、供应商保存、再训练、出境访问、日志留存、删除退出和输出复核。

这三张表的作用不是增加流程负担，而是让企业在供应商采购、客户交付、产品上线和争议应对时有证据可查。

六、合同里至少补五个条款

第一，数据用途条款。明确数据是否可用于训练、微调、评测、RAG、产品优化和客户项目交付。

第二，权利来源条款。供应商或合作方应说明数据来源、授权范围、第三方权益和侵权追偿安排。

第三，个人信息处理条款。明确处理目的、方式、个人信息种类、保存期限、安全措施、委托处理或第三方提供关系。

第四，模型再训练条款。明确输入输出是否进入供应商训练集，是否服务其他客户，是否可关闭，关闭后如何验证。

第五，删除和退出条款。客户撤回、合同终止、数据错误或权利争议发生后，训练集、向量库、日志和备份如何删除或隔离。

结尾

AI 训练数据合规，不是简单地问“能不能用”，而是问“这批数据从哪里来、里面有什么权利、被谁怎么处理、出了问题谁负责”。

如果企业现在已经在使用外部 AI 工具，建议先从高风险数据做一次回看：客户资料、合同、客服记录、图片视频、代码、供应商数据和境外模型调用。先把风险表补起来，比出了投诉或客户质疑后再解释要稳得多。

以上是一般法律信息，仅供参考，不构成针对具体案件的法律意见，也不替代正式咨询。欢迎关注本号，后续会继续拆解企业 AI 数据合规、知识产权授权和商业秘密保护问题。

导语