客户数据训练AI,先查3件事
企业把客户资料、作品素材或公开数据用于 AI 训练前,要先查来源、权利和供应商处理边界。
先说一个风险
很多企业现在都在试 AI:把客户工单丢进去做摘要,把合同和图片丢进去做知识库,把公开网页抓下来做训练集。先别急着上传。客户数据训练 AI,最容易出问题的不是模型本身,而是数据来源、权利边界和供应商再训练没有说清楚。
吕箐翎律师处理这类知识产权和数据合规问题时,会先看三张表:来源表、权利表、处理表。她执业 14 年,接触过 11,000+ 件咨询和案件线索;没有这三张表,技术上跑通了,法律风险也可能没跑通。
第一,先查数据从哪里来
数据来源不同,处理方式不同。
客户工单、订单、聊天记录、通话录音、合同和售后记录,虽然在企业系统里,但可能包含个人信息、客户保密资料和商业秘密。公开网页、图片、文章、视频、代码,虽然能看到,也不等于可以自由复制、建库、训练或商用。第三方买来的数据,更要看合同有没有允许训练、微调、评测、RAG 和客户项目交付。
不要只写“数据来自公开渠道”。要留下采集范围、网站条款、合同授权、截图、下载记录、供应商说明和删除要求。
第二,再查里面有什么权利
AI 训练数据里可能有很多层权利。
图片、文案、视频、音乐、代码,可能涉及著作权。客户名单、报价、采购周期、项目预算,可能涉及商业秘密。订单、地址、手机号、客服聊天和语音图片,可能涉及个人信息。字段结构、标签规则、清洗说明和数据集,也可能涉及合同权益或数据资产管理要求。
所以企业不能只做一个“脱敏”动作就结束。脱敏解决的是识别风险的一部分,不自动解决作品授权、商业秘密、合同限制和供应商再训练问题。
第三,最后查 AI 怎么处理
训练、微调、评测、RAG 和普通提示词调用,不是一回事。
如果只是本地隔离测试少量脱敏样本,风险相对低一些。如果是真实客户资料上传到外部模型,就要查供应商会不会保存输入输出,会不会用于模型再训练,会不会服务其他客户,会不会被境外团队访问,客户要求删除时能不能处理训练集、向量库、日志和备份。
这些问题最好写进合同和内部规范,不要只听销售口头说“不保存”。
企业先做三件事
第一,做来源表。每类数据都写明来源、合同、授权、采集方式和使用限制。
第二,做权利表。标出作品、代码、图片、商业秘密、个人信息、重要数据、客户保密资料和第三方合同限制。
第三,做处理表。写清训练、微调、评测、RAG、供应商保存、再训练、出境访问、权限控制、日志留存和删除退出。
如果这三张表都没有,不建议直接把真实客户数据上传给外部 AI 工具。
我的实务判断
AI 数据合规不是阻止企业用 AI,而是让企业知道哪些数据能用、怎么用、谁负责。真正危险的是:客户资料直接上传,供应商条款没看,员工随便试用,后面客户追问或权利人投诉时,企业拿不出来源、授权、日志和删除证据。
如果已经开始试用 AI,可以先从高风险数据回查:客户资料、合同、图片视频、代码、工单、外部采购数据和境外模型调用。先把证据补齐,再决定是否扩大使用。
还有一个细节:员工个人账号试用 AI 工具,也要纳入公司规则。很多泄露不是从正式采购开始,而是从截图、合同、客户聊天记录和源代码片段随手上传开始。企业至少要有禁止上传清单、审批记录和日志留存。
以上是一般法律信息,仅供参考,不构成针对具体案件的法律意见,也不替代正式咨询。欢迎关注,或在评论区留言你最担心的 AI 数据使用场景。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《中华人民共和国个人信息保护法》
- [4] 《生成式人工智能服务管理暂行办法》
- [5] 《促进和规范数据跨境流动规定》
- [6] 《网络数据安全管理条例》