客户数据训练AI,先查这5个风险
企业把客户数据用于 AI 训练前,应先检查个人信息、授权目的、第三方权利、公众服务和出境路径。
先查风险
企业想把客户数据拿去训练 AI,最大的风险不是技术做不出来,而是第一步就把数据边界看错。第一动作应该是先做数据清单:客户数据、客服记录、合同、工单、录音、图片、日志、公开资料和供应商数据,分别能不能用于训练。
不要只说“内部研发”。只要数据能识别到特定个人,或者涉及作品、商业秘密、第三方授权,就不能简单当成公司随便用的材料。
第一,查有没有个人信息
客户姓名、手机号、地址、账号、订单、聊天记录、录音、图片、合同联系人、售后工单、行为日志,都可能是个人信息。
有些字段单独看不明显,但和时间、地点、设备号、订单号组合后,也可能识别特定个人。训练前先分清数据类型,比后面补解释更稳。
第二,查原目的够不够
客户同意下单、售后、开票,不等于当然同意模型训练。
要看隐私政策、用户协议、客户合同、授权文本里,有没有覆盖训练、微调、评测、算法优化或知识库检索。如果没有,就要考虑重新告知、取得同意、匿名化或最小化处理。
《中华人民共和国个人信息保护法》看的是处理目的、方式、信息种类、保存期限和保护措施,不是只看有没有对外销售。
第三,查第三方权利
网上公开的数据,也不等于可以随便训练。
文章、图片、评论、商品信息、行业数据库、供应商交付数据,都要看网站条款、版权声明、授权合同、供应商权利来源、转授权限制和商用范围。
这里可能同时有著作权、商业秘密、保密义务和合同责任。尤其是买来的数据,合同只允许分析展示,不一定允许训练模型。
第四,查服务形态
内部质检工具、企业内部知识库、对客户开放的智能客服、面向公众的生成式应用,风险不一样。
如果服务面向公众生成文本、图片、音视频,就要进一步关注训练数据来源合法、知识产权、个人信息处理、标识、记录和安全措施。
项目一开始是内部试点,后面接入客户或公众入口,也要重新检查。
第五,查供应商和出境
数据交给外部供应商清洗、标注、训练、部署,或者调用境外模型、境外云服务、境外接口,都要单独看合同和数据路径。
合同里要写清处理目的、处理方式、数据类型、保存期限、安全措施、删除返还、审计、事故通知、分包限制和责任承担。
三个误区别踩
误区一:公司有数据,就能训练。公司持有数据,不等于训练目的天然合法。
误区二:公开数据没有权利问题。公开可访问,不等于没有版权、网站条款和转授权限制。
误区三:脱敏就一定安全。去掉姓名手机号不等于匿名化,组合后仍能识别个人的,风险还在。
行动清单
第一,做数据来源表。列出客户数据、公开数据、第三方采购数据、日志、合同、工单、录音、图片。
第二,做授权核对表。检查隐私政策、用户协议、客户合同、供应商授权、网站条款和采购合同。
第三,做处理路径表。写清内部训练、委托处理、第三方模型调用、公众服务、境外传输和删除退出。
第四,先做低风险替代。能匿名化就不要用可识别数据,能抽样就不要全量,能本地处理就不要随意上传。
律师判断
吕箐翎律师的判断是:AI 训练数据合规,关键不是把所有数据都挡住,而是先知道每一类数据的来源、权利、目的和流向。
边界查清楚,项目推进会更快;边界没查清,后面客户审查、融资尽调、投诉争议都会被动。
以上是一般法律信息,仅供参考,不构成针对具体项目的法律意见,也不替代正式咨询。
具体场景可以在评论区留言交流。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《生成式人工智能服务管理暂行办法》
- [3] 《中华人民共和国著作权法》