客户数据训练AI前先查5个边界

创建：2026-05-28 更新：2026-05-28 江苏鑫律联律师事务所

微信公众号 AI训练数据合规

这是一篇微信公众号稿件。为便于检索、归档与阅读，收录于“公开发声”。

企业使用客户数据训练 AI 前，应先检查个人信息、授权目的、第三方权利、公众服务触发和出境路径。

导语

企业做 AI 应用时，最常见的误区是把客户数据、客服记录、合同、工单、录音、图片和行为日志都当成“公司内部资料”，认为只要不卖给别人，就可以拿来训练模型、微调模型或做知识库。这个判断有明显风险。吕箐翎律师处理知识产权和数据合规问题14年，接触过11,000+件咨询和案件线索，判断 AI 训练数据项目时，通常会先看数据来源、授权目的、处理方式和流向，而不是先看模型效果。

企业真正要做的，不是先问“能不能训练”，而是先把个人信息、合同授权、著作权、商业秘密、服务形态和出境路径拆清楚。下面这 5 个边界，适合作为项目启动前的内部清单，也适合作为产品、法务、研发和采购一起讨论的底稿。

一、先确认客户数据里有没有个人信息

客户数据不只是姓名和手机号。

订单、地址、账号、设备号、聊天记录、录音、图片、合同联系人、售后工单、用户行为日志、客户画像标签，都可能识别特定个人。某些字段单独看似乎没有问题，但和时间、地点、账号、交易记录组合后，仍可能落入个人信息范围。

《中华人民共和国个人信息保护法》关注个人信息处理活动本身，包括处理目的、处理方式、信息种类、保存期限、保护措施和个人权益。企业不能因为项目叫“内部研发”，就跳过个人信息处理审查。

二、再看原来的目的能不能覆盖训练

很多数据最初是为了下单、履约、售后、客服、开票或客户管理收集的。

这些目的不一定当然覆盖模型训练、算法优化、效果评测、向量库检索或外部模型调用。如果隐私政策、用户协议、客户合同或授权文本没有写清训练目的，就要评估是否需要重新告知、取得同意，或者改用匿名化、统计化、最小必要的数据处理方式。

这里的关键不是写一句“用于改善服务”就一定够，而是要看具体数据、具体用途和用户合理预期。客户把信息交给企业用于履约，不代表同意企业把完整记录上传给第三方模型做训练。

三、公开数据和第三方数据也要查权利来源

公开可访问，不等于可以自由训练。

企业使用网页内容、图片、评论、文章、视频、商品数据、行业数据库或供应商交付数据时，要看网站条款、授权合同、数据供应商权利来源、转授权限制、商用范围、删除退出、侵权追偿和保密义务。

这部分不仅是数据合规，也涉及著作权、邻接权益、商业秘密和合同责任。尤其是采购数据或合作数据，如果合同只允许展示、分析或内部报告，不一定允许模型训练和商用输出。

四、场景一：客服记录训练客服机器人

客服记录里常见姓名、手机号、地址、订单、投诉内容、付款信息和合同争议。

如果直接拿来训练客服机器人，企业要先确认原隐私政策是否覆盖训练目的，是否需要重新告知，是否能删除或替换识别信息，是否涉及敏感个人信息，是否交给外部供应商处理。

更稳的做法是先做数据分级，再做脱敏或匿名化处理，保留处理记录，并限制供应商使用范围。比如供应商只能为本项目处理数据，不得自行留存、复用、训练通用模型或转交分包。

五、场景二：公开文章和行业资料进知识库

公开文章、行业报告、商品图片、评论和问答内容，也不能只因为“网上能看到”就直接进训练集。

尤其要区分“检索展示”“内部分析”“模型训练”“商用输出”几种用途。授权可以很窄，不要把一种用途推到所有用途。

六、场景三：调用外部模型做客户画像

还有一种常见做法，是把客户咨询、订单和行为标签发给外部模型，让模型总结客户需求、投诉倾向或购买概率。

这个场景要同时看三件事：第一，上传内容里是否有个人信息或敏感个人信息；第二，外部模型服务商是否会留存、复用或用于训练；第三，数据是否出境或被境外主体处理。如果这三点不清楚，项目不宜只靠技术接口说明推进。

七、要判断是否触发生成式服务要求

企业内部做质检、知识库检索和销售预测，与面向公众提供生成式服务，不是同一个风险层级。

如果应用向公众提供文本、图片、音视频等生成能力，就要进一步关注训练数据来源合法性、知识产权、个人信息处理、标识、记录和安全措施等要求。

很多项目从内部工具试点开始，后来接入客户、经销商或公众入口，服务形态变了，合规要求也要重新看。上线范围变化，本身就是一次新的审查触发点。

八、供应商和境外路径不能漏

如果企业把数据交给外部供应商清洗、标注、训练、部署，或者调用境外模型、境外云服务、境外接口，就要单独检查委托处理、共同处理、向第三方提供和数据出境路径。

合同里至少要写清处理目的、处理方式、数据类型、保存期限、安全措施、删除返还、审计权、事故通知、分包限制和责任承担。

如果供应商无法说明数据是否留存、是否用于训练、是否转交第三方、是否跨境处理，企业应当把这类不确定性写进风险清单，而不是默认没有问题。

九、行动建议

第一，做数据来源清单。区分客户数据、公开数据、第三方采购数据、合作方数据、日志、录音、图片、合同、工单和知识库材料。

第二，做权利和授权核对。检查隐私政策、用户协议、客户合同、供应商授权、网站条款、数据采购合同，标注是否覆盖训练、微调、评测、商用、转授权和删除退出。

第三，做个人信息处理评估。核查是否含个人信息或敏感个人信息，是否满足必要性，是否需要重新告知或同意，是否可以匿名化或最小化。

第四，做服务形态判断。区分内部工具、企业客户服务、公众生成式服务、深度合成应用和第三方模型调用。

第五，做供应商和出境路径表。列明数据是否交给外部处理，是否调用境外模型，是否发生数据出境，合同里是否有安全措施、删除返还和责任条款。

第六，保留决策记录。记录哪些数据被排除、哪些数据被匿名化、哪些授权仍需补充、哪些供应商条款需要谈判。后续客户审查、融资尽调或投诉争议出现时，这些记录能说明企业不是无规则使用数据。

十、结语

AI 训练数据合规不是阻止企业创新，而是让项目一开始就知道哪些数据可以用、怎么用、谁负责、出了问题怎么追责。越早把边界查清，后面产品上线、融资尽调、客户审查和争议处理越不被动。

以上是一般法律信息，仅供参考，不构成针对具体项目的法律意见，也不替代正式咨询。

关注本号，后续继续拆解企业 AI 产品、训练数据和知识产权合规中的实务问题。

导语