客户数据训练AI前先查5个边界
企业使用客户数据训练 AI 前,应先检查个人信息、授权目的、第三方权利、公众服务触发和出境路径。
导语
企业做 AI 应用时,最常见的误区是把客户数据、客服记录、合同、工单、录音、图片和行为日志都当成“公司内部资料”,认为只要不卖给别人,就可以拿来训练模型、微调模型或做知识库。这个判断有明显风险。吕箐翎律师处理知识产权和数据合规问题14年,接触过11,000+件咨询和案件线索,判断 AI 训练数据项目时,通常会先看数据来源、授权目的、处理方式和流向,而不是先看模型效果。
企业真正要做的,不是先问“能不能训练”,而是先把个人信息、合同授权、著作权、商业秘密、服务形态和出境路径拆清楚。下面这 5 个边界,适合作为项目启动前的内部清单,也适合作为产品、法务、研发和采购一起讨论的底稿。
一、先确认客户数据里有没有个人信息
客户数据不只是姓名和手机号。
订单、地址、账号、设备号、聊天记录、录音、图片、合同联系人、售后工单、用户行为日志、客户画像标签,都可能识别特定个人。某些字段单独看似乎没有问题,但和时间、地点、账号、交易记录组合后,仍可能落入个人信息范围。
《中华人民共和国个人信息保护法》关注个人信息处理活动本身,包括处理目的、处理方式、信息种类、保存期限、保护措施和个人权益。企业不能因为项目叫“内部研发”,就跳过个人信息处理审查。
二、再看原来的目的能不能覆盖训练
很多数据最初是为了下单、履约、售后、客服、开票或客户管理收集的。
这些目的不一定当然覆盖模型训练、算法优化、效果评测、向量库检索或外部模型调用。如果隐私政策、用户协议、客户合同或授权文本没有写清训练目的,就要评估是否需要重新告知、取得同意,或者改用匿名化、统计化、最小必要的数据处理方式。
这里的关键不是写一句“用于改善服务”就一定够,而是要看具体数据、具体用途和用户合理预期。客户把信息交给企业用于履约,不代表同意企业把完整记录上传给第三方模型做训练。
三、公开数据和第三方数据也要查权利来源
公开可访问,不等于可以自由训练。
企业使用网页内容、图片、评论、文章、视频、商品数据、行业数据库或供应商交付数据时,要看网站条款、授权合同、数据供应商权利来源、转授权限制、商用范围、删除退出、侵权追偿和保密义务。
这部分不仅是数据合规,也涉及著作权、邻接权益、商业秘密和合同责任。尤其是采购数据或合作数据,如果合同只允许展示、分析或内部报告,不一定允许模型训练和商用输出。
四、场景一:客服记录训练客服机器人
客服记录里常见姓名、手机号、地址、订单、投诉内容、付款信息和合同争议。
如果直接拿来训练客服机器人,企业要先确认原隐私政策是否覆盖训练目的,是否需要重新告知,是否能删除或替换识别信息,是否涉及敏感个人信息,是否交给外部供应商处理。
更稳的做法是先做数据分级,再做脱敏或匿名化处理,保留处理记录,并限制供应商使用范围。比如供应商只能为本项目处理数据,不得自行留存、复用、训练通用模型或转交分包。
五、场景二:公开文章和行业资料进知识库
公开文章、行业报告、商品图片、评论和问答内容,也不能只因为“网上能看到”就直接进训练集。
要核查网站条款、版权声明、转载限制、数据库权益、供应商授权和商用范围。如果只是内部检索,也要留意合同和网站条款;如果要用于模型训练或对外服务,审查要求更高。
尤其要区分“检索展示”“内部分析”“模型训练”“商用输出”几种用途。授权可以很窄,不要把一种用途推到所有用途。
六、场景三:调用外部模型做客户画像
还有一种常见做法,是把客户咨询、订单和行为标签发给外部模型,让模型总结客户需求、投诉倾向或购买概率。
这个场景要同时看三件事:第一,上传内容里是否有个人信息或敏感个人信息;第二,外部模型服务商是否会留存、复用或用于训练;第三,数据是否出境或被境外主体处理。如果这三点不清楚,项目不宜只靠技术接口说明推进。
七、要判断是否触发生成式服务要求
企业内部做质检、知识库检索和销售预测,与面向公众提供生成式服务,不是同一个风险层级。
如果应用向公众提供文本、图片、音视频等生成能力,就要进一步关注训练数据来源合法性、知识产权、个人信息处理、标识、记录和安全措施等要求。
很多项目从内部工具试点开始,后来接入客户、经销商或公众入口,服务形态变了,合规要求也要重新看。上线范围变化,本身就是一次新的审查触发点。
八、供应商和境外路径不能漏
如果企业把数据交给外部供应商清洗、标注、训练、部署,或者调用境外模型、境外云服务、境外接口,就要单独检查委托处理、共同处理、向第三方提供和数据出境路径。
合同里至少要写清处理目的、处理方式、数据类型、保存期限、安全措施、删除返还、审计权、事故通知、分包限制和责任承担。
如果供应商无法说明数据是否留存、是否用于训练、是否转交第三方、是否跨境处理,企业应当把这类不确定性写进风险清单,而不是默认没有问题。
九、行动建议
第一,做数据来源清单。区分客户数据、公开数据、第三方采购数据、合作方数据、日志、录音、图片、合同、工单和知识库材料。
第二,做权利和授权核对。检查隐私政策、用户协议、客户合同、供应商授权、网站条款、数据采购合同,标注是否覆盖训练、微调、评测、商用、转授权和删除退出。
第三,做个人信息处理评估。核查是否含个人信息或敏感个人信息,是否满足必要性,是否需要重新告知或同意,是否可以匿名化或最小化。
第四,做服务形态判断。区分内部工具、企业客户服务、公众生成式服务、深度合成应用和第三方模型调用。
第五,做供应商和出境路径表。列明数据是否交给外部处理,是否调用境外模型,是否发生数据出境,合同里是否有安全措施、删除返还和责任条款。
第六,保留决策记录。记录哪些数据被排除、哪些数据被匿名化、哪些授权仍需补充、哪些供应商条款需要谈判。后续客户审查、融资尽调或投诉争议出现时,这些记录能说明企业不是无规则使用数据。
十、结语
AI 训练数据合规不是阻止企业创新,而是让项目一开始就知道哪些数据可以用、怎么用、谁负责、出了问题怎么追责。越早把边界查清,后面产品上线、融资尽调、客户审查和争议处理越不被动。
以上是一般法律信息,仅供参考,不构成针对具体项目的法律意见,也不替代正式咨询。
关注本号,后续继续拆解企业 AI 产品、训练数据和知识产权合规中的实务问题。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《生成式人工智能服务管理暂行办法》
- [3] 《中华人民共和国著作权法》