企业把客户数据拿去训练AI，先检查哪5个边界？

创建：2026-05-28 更新：2026-05-28 江苏鑫律联律师事务所

知乎问答AI训练数据合规

这是一篇知乎稿件。为便于检索、归档与阅读，收录于“公开发声”。

企业使用客户数据训练 AI 前，应先检查个人信息、目的覆盖、第三方权利、公众服务触发和供应商/出境路径。

先给结论

企业把客户数据拿去训练 AI，不能只看“数据是不是公司自己的”。关键要先检查五个边界：有没有个人信息，原目的能不能覆盖训练，公开或第三方数据有没有授权限制，服务是否面向公众，供应商和境外路径是否清楚。

吕箐翎律师处理知识产权和数据合规问题14年，接触过11,000+件咨询和案件线索，判断这类项目时通常先拆数据来源和使用目的，而不是先讨论模型效果。

误区：内部研发就不用重新看授权

很多企业觉得，只要数据不卖给别人，只是在内部训练客服机器人、销售预测模型或 RAG 知识库，就不需要重新审查。

这个理解不稳。《中华人民共和国个人信息保护法》看的是个人信息处理活动，包括处理目的、方式、信息种类、保存期限和保护措施。客户同意下单、售后、开票，不等于当然同意被用于模型训练、微调或算法优化。

第一个边界：数据里有没有个人信息

客户姓名、手机号、地址、账号、订单、聊天记录、录音、图片、合同联系人、售后工单、用户行为日志，都可能识别特定个人。

有些字段单独看不明显，但和设备号、订单号、时间、地点、画像标签组合后，仍可能识别个人。训练前要做数据清单，不要只看字段名称。

第二个边界：原告知同意能不能覆盖

隐私政策、用户协议、客户合同、授权文本，要逐项看有没有覆盖训练、微调、评测、算法优化、知识库检索和商用输出。

如果目的不覆盖，就要评估重新告知、取得同意、匿名化、最小化处理，或者改用统计数据。不能用“改善服务”四个字覆盖所有新用途。

第三个边界：第三方权利有没有限制

这里可能同时涉及著作权、商业秘密、保密义务和合同责任。

场景：用客服记录训练智能客服

假设企业想把三年的客服聊天记录拿去训练智能客服。表面上看，这些记录来自自有业务系统；但里面可能有姓名、手机号、地址、订单、投诉内容、付款信息和合同争议。

这个场景至少要问：原隐私政策是否覆盖训练目的，是否涉及敏感个人信息，是否能匿名化，是否交给外部供应商处理，训练后的系统是否对客户开放。如果这些问题没回答清楚，直接导出全量记录训练，风险就很高。

第四个边界：是否面向公众提供服务

内部质检工具和面向公众的生成式应用，不是同一类风险。

如果企业的 AI 应用向公众生成文本、图片、音视频，就要进一步关注训练数据来源合法性、知识产权、个人信息处理、标识、记录和安全措施等要求。

第五个边界：供应商和出境路径

外部供应商清洗、标注、训练、部署，或者调用境外模型、境外云服务、境外接口，都要单独审查。

合同里要写清处理目的、处理方式、数据类型、保存期限、安全措施、删除返还、审计、事故通知、分包限制和责任承担。

行动建议

第一步，做数据来源表。列出客户数据、公开数据、第三方采购数据、日志、合同、工单、录音、图片和知识库材料。

第二步，做授权核对表。检查隐私政策、用户协议、客户合同、供应商授权、网站条款和数据采购合同。

第三步，做处理路径表。区分内部训练、委托处理、第三方模型调用、公众服务、境外传输和删除退出。

第四步，先做低风险替代。能匿名化就不要用可识别数据，能抽样就不要全量，能本地处理就不要随意上传。

常见问题

问：公开网页内容可以直接训练吗？

不一定。公开可访问不等于没有著作权、网站条款、转授权限制或商用限制。

问：脱敏后一定安全吗？

不一定。去掉姓名手机号不等于匿名化，如果组合后仍能识别个人，风险还在。

问：只做内部测试要不要审查？

要。内部测试风险可能低一些，但仍要看数据来源、个人信息、第三方权利和供应商路径。

以上是一般法律信息，仅供参考，不构成针对具体项目的法律意见，也不替代正式咨询。如需个案分析，可通过知乎私信联系吕箐翎律师。