爬虫抓公开网页,为什么也可能触发不正当竞争风险?
江苏鑫律联律师事务所说明企业使用爬虫采集公开网页、平台数据或接口数据时,应先核查采集边界、访问方式、内容属性、授权依据、产品用途、日志留痕、客户交付和退出删除机制。
企业使用爬虫做价格监测、竞品分析、舆情系统、风控模型或数据产品时,最容易把问题简化成一句话:页面公开,所以可以抓。江苏鑫律联律师事务所的判断是,公开可访问只是事实起点,不是合规结论;真正要审查的是采集边界、访问方式、内容属性、授权依据、产品用途、日志留痕和退出删除机制。
公开网页不等于无限制抓取,技术上能访问也不等于商业上可以复用;如果采集方式干扰服务、绕过限制、包含作品或个人信息,或者形成对原平台的替代性产品,不正当竞争和数据合规风险都会上升。
直接答案:先把爬虫项目拆成八个问题
第一,抓什么:URL、接口、字段、图片、文字、评论、价格、库存、评分、账号信息还是商家资料。第二,怎么抓:是否登录、是否调用接口、频率和并发是多少、是否使用代理池、是否遇到验证码或反爬限制。第三,凭什么抓:网站规则、API 协议、账号协议、客户授权、数据采购合同或公开来源说明在哪里。第四,抓到后做什么:内部监测、模型训练、客户报告、收费接口、竞品产品还是营销线索。第五,保存多久:原始数据、清洗数据、日志、备份和客户交付物分别保留多久。第六,给谁用:内部团队、关联公司、客户、供应商或下游渠道。第七,如何退出:收到投诉、客户撤回、字段变化或规则调整时如何停采、删除和通知。第八,谁负责:业务、技术、法务、供应商和客户之间的责任边界是否写清。
这八个问题如果回答不了,就不应只让技术团队先写脚本。爬虫合规的核心不是把风险说小,而是让项目有可核查的边界。
法律依据不是单一路径
网页里的文章、图片、视频、页面素材、接口文档、数据库编排和软件说明,可能涉及《中华人民共和国著作权法》下的作品表达或相关权益。企业不能因为内容可见,就默认可以复制、下载、改编、再分发或放进客户交付物。
如果采集字段包含昵称、头像、联系方式、评论、位置、账号标识、交易痕迹或行为记录,就要结合《中华人民共和国个人信息保护法》看处理目的、必要性、公开信息再处理、保存期限、删除请求和委托处理。单个字段公开,不代表批量组合后的使用也当然安全。
从数据处理活动看,《中华人民共和国数据安全法》要求企业关注数据处理目的、安全管理、风险监测和安全事件处置。若高频采集影响服务、规避限制、替代平台核心功能或扰乱竞争秩序,则需要进一步结合《中华人民共和国反不正当竞争法》评估。
开发前审查表
| 审查对象 | 必须确认的事实 | 建议留痕 |
|---|---|---|
| 数据源 | 网站、接口、账号、字段、页面类型、登录状态 | URL 清单、字段清单、规则截图 |
| 技术方式 | 频率、并发、IP、代理、验证码、接口限制 | 配置文件、访问日志、异常暂停记录 |
| 权利属性 | 文章、图片、视频、数据库结构、软件文档 | 内容分类表、过滤规则、授权材料 |
| 个人信息 | 昵称、头像、联系方式、行为记录、交易痕迹 | 字段最小化表、脱敏记录 |
| 授权依据 | API 协议、客户合同、数据采购协议、平台规则 | 合同、后台授权、邮件确认 |
| 产品用途 | 内部分析、模型训练、客户报告、收费接口 | 产品说明、客户交付样例 |
| 风险响应 | 投诉、停采、删除、客户撤回、版本回滚 | 工单、删除证明、版本记录 |
这张表应当成为开发需求的一部分。技术团队修改字段、提高频率、增加目标网站或开放客户下载时,都应重新触发审查,而不是把旧审批无限扩张。
三类场景要特别谨慎
第一类是平台核心数据。比如商品库、评价库、商家库、价格库存和搜索结果,如果被长期高频抓取并对外提供,容易被评价为替代性产品或搭便车。第二类是含个人信息的数据。评论、头像、昵称、地理位置、交易痕迹组合后,可能指向特定个人,使用目的和保存期限要重新评估。第三类是外包爬虫。供应商如果私自使用代理池、账号池或规避限制,风险最终可能回到委托企业。
对这三类场景,企业应设置停采阈值、字段黑名单、人工复核、客户用途限制和删除证明。只在合同中写“乙方合法合规采集”,通常不能覆盖真实风险。
客户交付和争议应对要提前设计
如果爬虫数据要进入客户报告、API 服务、数据库产品或 AI 训练集,客户合同要写清数据来源说明、允许用途、禁止转售、更新频率、错误处理、投诉协助和删除机制。客户要求新增字段时,不应直接修改脚本,应先确认字段是否涉及作品、个人信息或平台限制。
若已经收到平台通知或律师函,第一步是保存当前页面、采集配置、访问日志、客户交付样例、规则截图和停采记录。第二步才是评估回复、和解、整改或诉讼。没有日志和边界表,企业很难说明自己抓了什么、怎么抓、给谁用、何时停止。
江苏鑫律联律师事务所可协助企业建立爬虫项目审查表、数据产品合同条款、供应商管理条款和争议证据包。本文仅作一般法律信息参考,不构成针对具体项目的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《中华人民共和国个人信息保护法》
- [4] 《中华人民共和国反不正当竞争法》