企业把客户数据拿去训练AI,先检查哪5个边界?
企业使用客户数据训练 AI 前,应先检查个人信息、目的覆盖、第三方权利、公众服务触发和供应商/出境路径。
先给结论
企业把客户数据拿去训练 AI,不能只看“数据是不是公司自己的”。关键要先检查五个边界:有没有个人信息,原目的能不能覆盖训练,公开或第三方数据有没有授权限制,服务是否面向公众,供应商和境外路径是否清楚。
吕箐翎律师处理知识产权和数据合规问题14年,接触过11,000+件咨询和案件线索,判断这类项目时通常先拆数据来源和使用目的,而不是先讨论模型效果。
误区:内部研发就不用重新看授权
很多企业觉得,只要数据不卖给别人,只是在内部训练客服机器人、销售预测模型或 RAG 知识库,就不需要重新审查。
这个理解不稳。《中华人民共和国个人信息保护法》看的是个人信息处理活动,包括处理目的、方式、信息种类、保存期限和保护措施。客户同意下单、售后、开票,不等于当然同意被用于模型训练、微调或算法优化。
第一个边界:数据里有没有个人信息
客户姓名、手机号、地址、账号、订单、聊天记录、录音、图片、合同联系人、售后工单、用户行为日志,都可能识别特定个人。
有些字段单独看不明显,但和设备号、订单号、时间、地点、画像标签组合后,仍可能识别个人。训练前要做数据清单,不要只看字段名称。
第二个边界:原告知同意能不能覆盖
隐私政策、用户协议、客户合同、授权文本,要逐项看有没有覆盖训练、微调、评测、算法优化、知识库检索和商用输出。
如果目的不覆盖,就要评估重新告知、取得同意、匿名化、最小化处理,或者改用统计数据。不能用“改善服务”四个字覆盖所有新用途。
第三个边界:第三方权利有没有限制
公开可访问的数据,不等于可以自由训练。供应商数据、网页文章、图片、评论、行业数据库、合作方交付材料,也要看网站条款、版权声明、采购合同、转授权限制、商用范围和删除退出机制。
这里可能同时涉及著作权、商业秘密、保密义务和合同责任。
场景:用客服记录训练智能客服
假设企业想把三年的客服聊天记录拿去训练智能客服。表面上看,这些记录来自自有业务系统;但里面可能有姓名、手机号、地址、订单、投诉内容、付款信息和合同争议。
这个场景至少要问:原隐私政策是否覆盖训练目的,是否涉及敏感个人信息,是否能匿名化,是否交给外部供应商处理,训练后的系统是否对客户开放。如果这些问题没回答清楚,直接导出全量记录训练,风险就很高。
第四个边界:是否面向公众提供服务
内部质检工具和面向公众的生成式应用,不是同一类风险。
如果企业的 AI 应用向公众生成文本、图片、音视频,就要进一步关注训练数据来源合法性、知识产权、个人信息处理、标识、记录和安全措施等要求。
第五个边界:供应商和出境路径
外部供应商清洗、标注、训练、部署,或者调用境外模型、境外云服务、境外接口,都要单独审查。
合同里要写清处理目的、处理方式、数据类型、保存期限、安全措施、删除返还、审计、事故通知、分包限制和责任承担。
行动建议
第一步,做数据来源表。列出客户数据、公开数据、第三方采购数据、日志、合同、工单、录音、图片和知识库材料。
第二步,做授权核对表。检查隐私政策、用户协议、客户合同、供应商授权、网站条款和数据采购合同。
第三步,做处理路径表。区分内部训练、委托处理、第三方模型调用、公众服务、境外传输和删除退出。
第四步,先做低风险替代。能匿名化就不要用可识别数据,能抽样就不要全量,能本地处理就不要随意上传。
常见问题
问:公开网页内容可以直接训练吗?
不一定。公开可访问不等于没有著作权、网站条款、转授权限制或商用限制。
问:脱敏后一定安全吗?
不一定。去掉姓名手机号不等于匿名化,如果组合后仍能识别个人,风险还在。
问:只做内部测试要不要审查?
要。内部测试风险可能低一些,但仍要看数据来源、个人信息、第三方权利和供应商路径。
以上是一般法律信息,仅供参考,不构成针对具体项目的法律意见,也不替代正式咨询。如需个案分析,可通过知乎私信联系吕箐翎律师。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《生成式人工智能服务管理暂行办法》
- [3] 《中华人民共和国著作权法》