数据爬虫的是与非:技术中立但恶意抓取频繁，侵权边界在哪里？

从新浪微博不当获取用户数据案，到LinkedIn与hiQ Labs的数据之争...相关司法案例的不断出现，让数据抓取备受关注。

10年10月23日，长三角数据合规论坛(第三期)暨数据爬虫法律规制研讨会在上海召开。许多法律专家、司法工作者和企业代表就爬虫技术对数字产业的影响、爬行他人数据的法律边界和规制等问题展开了讨论。

大数据时代，随着数据价值的凸显，数据爬虫的应用日益广泛。会上很多专家提到，爬虫技术本身是中性的，但是爬虫技术的应用往往是有目的的，需要考虑爬行行为和数据使用是否正当。

“凶猛”的网络爬虫增加网站运营负担。

从技术角度来说，爬虫是通过程序模拟人上网或使用App的行为，从而高效抓取网络信息的过程。并不是所有人都欢迎这项技术。

欧莱雅中国数字化负责人刘在研讨会上表示，大多数网站拒绝爬虫访问，既是出于商业利益，也是为了自身网站运营的安全。爬虫的自动、持续、高频访问会导致网站服务器负载飙升，使得一些中小平台面临网站无法打开、网页加载缓慢，甚至直接瘫痪的风险。因此，“网站运营者经常遭受‘凶猛’的网络爬虫。”

虽然网站可以采取相应的策略或者技术手段来防止数据被抓取，但是爬虫也有更多的技术手段来反制，也就是所谓的反抓取策略。据刘介绍，反爬和爬的技术一直在迭代更新——爬不是问题，关键是你愿不愿意爬，爬的难度有多大。一般越是难爬的大厂App或网站，反爬机制越多。

小红书法务总监曾翔观察到，恶意爬虫案件经常发生在内容平台和电子商务平台。更多视频、图片、文字、用户行为数据等。都是在内容中抓取的，在电商领域抓取了更多的商业信息和商品信息。

“一般来说，内容平台会约定相关内容的知识产权归发布者所有，或者发布者和平台* * *。未经同意抓取涉嫌侵犯知识产权。”曾翔表示，该平台通过投资激发创作者的创造力。如果有人利用爬虫技术轻松获取内容并抄袭改编，就会损害平台的利益。

说到网络爬虫，Robots协议是一个无法回避的话题——它的全称是“网络爬虫排除标准”。通过Robots协议，网站明确警告搜索引擎哪些页面可以抓取，哪些页面不可以抓取。该协议也被业内称为搜索领域的“君子协定”。

上海浦东法院知识产权庭法官徐红涛是这样描述的:爬行动物是访客，机器人协议是挂在门上的一块牌子。谦虚的绅士们走近门口看到这个标志就会停下来，但是无法无天的人还是有可能破门而入。

梳理相关先例，徐红涛指出，Robots协议是互联网行业普遍遵循的规则。如果搜索引擎违反Robots协议抓取网站内容，可能会被认为违反商业道德，构成不正当竞争。而Robots协议解决的是前置问题，即抓取行为是否恰当，但没有解决抓取后数据是否被恰当使用的问题。

他进一步分析说，法院倾向于认为爬虫技术在一个案件的判决中是中立的，并且尊重网站设置Robots协议的方式。如果爬虫违反Robots协议强行爬行，可能会对合法性评价给出一些负面评价。另外，Robots协议与行为的合法性有关，但不是唯一的对立——即使符合Robots协议，也可能因为后期的使用行为而被判定为不合法。

值得一提的是，网络爬虫在为爬行行为辩护时，往往会将Robots协议与数据流联系起来。

徐红涛认为，在“互联互通”的背景下，“秩序”和“流通”同等重要。这就需要把握好“互联互通”和数据* * *之间的度，同时考虑各互联网行业运营商采用的Robots协议策略是否可能导致数据孤岛的出现。

判断爬虫行为的正当性要考虑多重因素。

在研讨会上，华东政法大学教授张勇对数据爬虫的危害行为进行了分类。

他表示，从数据类型来看，数据抓取可能侵犯的权益包括计算机系统安全、个人信息、著作权、国家秘密、商业秘密、市场竞争秩序等。从抓取的方式来看，数据抓取可能会危及计算机信息系统安全，非法获取公民个人信息，非法获取商业秘密，破坏版权技术保护措施。从抓取结果来看，存在不正当竞争、侵犯著作权、侵犯人格权等问题。

当数据成为生产要素时，数据抓取技术的应用场景日益广泛，随之而来的争议也越来越多。如何判断爬虫行为的正当性，或许可以从现有的案例中找到一些答案。

今年9月14日，杭州互联网法院公布了一起从微信微信官方账号平台抓取数据的不正当竞争案，判令被告停止数据抓取，并赔偿微信损失60万元。

法院认为，被告违反诚实信用原则，未经用户同意，擅自使用原告收集的具有商业价值的数据，足以实质性替代其他经营者提供的部分产品或者服务，损害了公平竞争的市场秩序，构成不正当竞争。

本案中，法院还从“三元目标叠加”的角度分析了爬行行为是否具有正当性。

以此为例，徐红涛提到，非搜索引擎爬虫的合法性主要取决于被告是否尊重被爬取网站预设的Robots协议，破坏被爬取网站的技术措施是否足以保证用户数据的安全，是否衡量了创造性和公共利益。

他指出，如果以危害用户数据安全为代价来抓取数据，而爬虫技术的应用并不能创造新的优质资源，只是增加了别人服务器的负担，那么很可能在行为合法性上被给予负面评价。