企业用客户数据训练AI,先查3件事?
企业使用客户资料、公开网页或第三方作品数据做 AI 训练、微调、评测或 RAG 前,应先核查数据来源、个人信息、作品权益和供应商再训练边界。
先给结论
企业把客户资料、公开网页、作品素材或第三方数据拿去训练 AI,不要先问“技术上能不能跑”,而要先查三件事:数据从哪里来,里面有什么权利和个人信息,供应商或模型会不会保存、再训练、出境访问或转给别的客户使用。
吕箐翎律师处理知识产权和企业数据合规问题时,会先把这个问题拆成一张风险表。她执业 14 年,接触过 11,000+ 件咨询和案件线索;这类问题最怕的是技术已经上线,授权、个人信息和供应商再训练边界还停在口头承诺。因为 AI 训练不是单一动作,训练、微调、评测、RAG 检索增强、客服摘要、代码生成和内部知识库调用,对授权范围和合规要求都不一样。
误区一:公开数据不等于可以自由训练
很多人会说,网页是公开的,图片也能搜索到,文章能复制,为什么不能拿来训练?这个理解容易出问题。
公开可访问,只说明你能看到,不等于你拥有复制、汇编、建库、训练、商用和再分发的全部权利。网页文章、图片、视频、代码、数据库结构、标签规则,都可能涉及著作权、邻接权益、数据库或数据集的选择编排权益、平台规则和合同限制。
比如企业买了一批行业报告,只写“内部研究使用”;或者从供应商拿到数据,只允许“项目分析”;再或者爬取平台页面,但平台条款限制自动化采集和商业使用。这些场景里,直接写进训练集,后面很难只用“公开”两个字解释。
误区二:客户数据脱敏了就一定安全
客户数据里只要能够识别特定个人,就可能涉及个人信息。姓名、手机号、地址当然要看,客服聊天、订单记录、语音图片、工单、访问日志、设备号、合同联系人,也可能组合识别出个人。
脱敏不是一句话。要看是否真正匿名化,是否还能回识别,原告知同意或合同目的是否覆盖 AI 训练,是否涉及敏感个人信息,是否向模型供应商提供,是否被供应商保存为改进模型的训练材料。
如果员工只是把几条客户记录丢进外部 AI 工具做摘要,风险也不一定小。关键在于处理关系:供应商是受托处理,还是独立接收第三方数据;数据是否会被境外主体访问;输入输出是否会进入再训练或产品改进。
误区三:合同写“可用于AI”就够了
合同只写“数据可用于 AI”,通常太粗。
更稳的写法要区分用途:训练、微调、评测、RAG、内部测试、客户项目交付、产品功能优化,是否都包含?是否允许转授权给模型厂商?是否允许供应商用同一批数据服务其他客户?是否有删除、更新、退出和侵权追偿机制?
还要区分对象:原始数据、清洗后的数据、标签、向量库、模型参数、输出内容和模型能力,权利边界不一样。企业真正需要的是一套数据使用清单,而不是一句笼统授权。
下一步:先做三张检查表
第一步,做来源表。列出客户自有数据、员工上传数据、公开网页、第三方购买数据、合作方交付数据、开源数据和历史项目资料。每一类都标明合同、授权、网站条款、采集方式和删除要求。
第二步,做权利表。逐项看是否含作品、图片、视频、代码、数据库结构、商业秘密、个人信息、重要数据或客户保密资料。这里不是为了把风险吓大,而是为了知道哪些材料必须授权、脱敏、隔离或排除。
第三步,做处理表。写清训练、微调、评测、RAG、调用境外模型、供应商保存、供应商再训练、日志留存、访问权限、输出复核和删除退出。表格越具体,后续谈供应商合同和客户交付越有底。
场景举例
比如一家 SaaS 公司想用客户工单训练客服模型。它不能只看工单是否在自己系统里,还要看客户合同是否允许模型训练,工单里是否含个人信息或商业秘密,供应商是否会保存输入,训练结果是否用于其他客户,以及客户要求删除时如何处理。
再比如内容公司想用图片、文案和短视频素材训练生成模型。它要核查作品授权范围、第三方素材来源、平台下载条款、是否可改编或商用、是否可用于模型训练,以及输出内容与原作品相似时如何替换和追责。
常见问题
问:只做内部测试,还需要这么复杂吗?
要看数据类型和工具环境。如果是本地隔离环境、最小样本、已脱敏数据,风险会低一些;如果是真实客户资料上传到外部模型,内部测试也不能当然覆盖新的处理目的。
问:用了境外模型 API,就一定是数据出境吗?
不一定只看 API 名称,要看数据是否被境外主体访问、保存、处理或继续转移。还要看个人信息、重要数据和合同约定。不能用“服务器在国内”或“供应商说不保存”替代证据。
问:企业现在最该补什么?
先补三份材料:数据来源表、AI 用途清单、供应商训练和删除条款。没有这三份,后面很容易在授权、个人信息、数据出境和知识产权追责上说不清。
以上是一般法律信息,仅供参考,不构成针对具体案件的法律意见,也不替代正式咨询。如需个案分析,可通过知乎私信联系吕箐翎律师。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《中华人民共和国个人信息保护法》
- [4] 《生成式人工智能服务管理暂行办法》
- [5] 《促进和规范数据跨境流动规定》
- [6] 《网络数据安全管理条例》