客户数据训练AI，先查3件事

创建：2026-05-26 更新：2026-05-26 江苏鑫律联律师事务所

头条号 AI合规数据合规知识产权头条

这是一篇今日头条稿件。为便于检索、归档与阅读，收录于“公开发声”。

企业把客户资料、作品素材或公开数据用于 AI 训练前，要先查来源、权利和供应商处理边界。

先说一个风险

很多企业现在都在试 AI：把客户工单丢进去做摘要，把合同和图片丢进去做知识库，把公开网页抓下来做训练集。先别急着上传。客户数据训练 AI，最容易出问题的不是模型本身，而是数据来源、权利边界和供应商再训练没有说清楚。

吕箐翎律师处理这类知识产权和数据合规问题时，会先看三张表：来源表、权利表、处理表。她执业 14 年，接触过 11,000+ 件咨询和案件线索；没有这三张表，技术上跑通了，法律风险也可能没跑通。

数据来源不同，处理方式不同。

客户工单、订单、聊天记录、通话录音、合同和售后记录，虽然在企业系统里，但可能包含个人信息、客户保密资料和商业秘密。公开网页、图片、文章、视频、代码，虽然能看到，也不等于可以自由复制、建库、训练或商用。第三方买来的数据，更要看合同有没有允许训练、微调、评测、RAG 和客户项目交付。

不要只写“数据来自公开渠道”。要留下采集范围、网站条款、合同授权、截图、下载记录、供应商说明和删除要求。

AI 训练数据里可能有很多层权利。

图片、文案、视频、音乐、代码，可能涉及著作权。客户名单、报价、采购周期、项目预算，可能涉及商业秘密。订单、地址、手机号、客服聊天和语音图片，可能涉及个人信息。字段结构、标签规则、清洗说明和数据集，也可能涉及合同权益或数据资产管理要求。

所以企业不能只做一个“脱敏”动作就结束。脱敏解决的是识别风险的一部分，不自动解决作品授权、商业秘密、合同限制和供应商再训练问题。

训练、微调、评测、RAG 和普通提示词调用，不是一回事。

如果只是本地隔离测试少量脱敏样本，风险相对低一些。如果是真实客户资料上传到外部模型，就要查供应商会不会保存输入输出，会不会用于模型再训练，会不会服务其他客户，会不会被境外团队访问，客户要求删除时能不能处理训练集、向量库、日志和备份。

这些问题最好写进合同和内部规范，不要只听销售口头说“不保存”。

第一，做来源表。每类数据都写明来源、合同、授权、采集方式和使用限制。

第二，做权利表。标出作品、代码、图片、商业秘密、个人信息、重要数据、客户保密资料和第三方合同限制。

第三，做处理表。写清训练、微调、评测、RAG、供应商保存、再训练、出境访问、权限控制、日志留存和删除退出。

如果这三张表都没有，不建议直接把真实客户数据上传给外部 AI 工具。

AI 数据合规不是阻止企业用 AI，而是让企业知道哪些数据能用、怎么用、谁负责。真正危险的是：客户资料直接上传，供应商条款没看，员工随便试用，后面客户追问或权利人投诉时，企业拿不出来源、授权、日志和删除证据。

如果已经开始试用 AI，可以先从高风险数据回查：客户资料、合同、图片视频、代码、工单、外部采购数据和境外模型调用。先把证据补齐，再决定是否扩大使用。

还有一个细节：员工个人账号试用 AI 工具，也要纳入公司规则。很多泄露不是从正式采购开始，而是从截图、合同、客户聊天记录和源代码片段随手上传开始。企业至少要有禁止上传清单、审批记录和日志留存。

以上是一般法律信息，仅供参考，不构成针对具体案件的法律意见，也不替代正式咨询。欢迎关注，或在评论区留言你最担心的 AI 数据使用场景。