爬虫技术应用的合法性存在争议,迫切需要对非法数据抓取进行规范,保障数据安全。

来源:法治日报-法制网

核心阅读

在大数据时代的背景下,越来越多的市场主体投入巨资收集、整理和挖掘信息。如果任由网络爬虫随意使用他人通过巨额投资获得的数据资源,将不利于鼓励商业投资、产业创新和诚信经营,甚至可能直接侵犯数据源用户的意愿和知情权,最终损害良性竞争机制。

随着社会经济的快速发展,数据的价值日益凸显,已经成为企业科技创新必不可少的要素。但企业通过技术手段获取数据时,数据抓取技术的应用行为是否合理合法,是一个值得深思的问题。

近年来,网络爬虫“抓取数据”成为热词,相关司法案例不断涌现。据不完全统计,近几年涉及网络爬虫的司法案件有十余起,既有民事案件,也有刑事案件。此类案件甚至愈演愈烈。

上海市人民检察院研究室副主任陈日前在上海举行的长三角数据合规论坛(第三期)暨数据爬虫法律规制研讨会上透露,检察机关正在积极推进企业合规改革试点工作,数据合规是重点。“目前,爬虫抓取数据的情况非常普遍。当网络平台或个人通过技术手段抓取其他平台数据时,这种行为是否合法,平台数据的主体是谁,谁在使用,都值得深入探讨。”

杭长三角大数据研究院副院长郭冰认为,数据爬虫作为一种中性技术,已经在互联网行业得到了广泛的应用。需要注意的是,如果爬虫技术应用不当,会损害其他竞争对手的合法权益,甚至涉嫌违法或犯罪,对行业的健康发展也会产生非常负面的影响。

从技术角度来说,爬虫通过程序模拟人类上网或浏览网页、app的行为,从而可以高效地抓取爬虫制作者在互联网上需要的信息。

欧莱雅中国数字化负责人刘表示,大部分网站拒绝爬虫访问,原因既包括商业利益,也包括自身网站的运营安全。除了爬虫可能不希望被爬取的数据,网站运营者往往还担心爬虫会干扰网站的正常运营。

而不规则爬虫自动持续高频率访问被爬当事人,服务器负载暴涨,也会给服务器带来“难以承受”的重量:处理没有经验的网站,尤其是中小型网站,可能会面临网站打不开,网页加载极其缓慢,有时甚至直接瘫痪的情况。

新浪集团诉讼总监张哲表示,爬虫和实现其他目的的技术本身都是中性的,但爬虫技术的应用并不是中性的,技术应用有用户的目的性。这个时候,我们不应该评价技术的原理,而需要评价技术是用来做什么的,这种行为手段是否正当。

谈到网络爬虫,robots协议是一个不可回避的话题。robots协议(又称爬虫协议)的全称是“网络爬虫排除标准”。通过robots协议,网站明确警告搜索引擎哪些页面可以抓取,哪些页面不可以抓取。该协议也被业内称为搜索领域的“君子协定”。

刘说,当一个网络爬虫访问一个网站时,robots协议就像一个标志立在他房间的门口,告诉外人谁能来,谁不能来。但是,这只是君子协定,只能起到通知的作用,而不能起到技术防范的作用。

实践中,恶意爬虫在爬取时不遵守网站的robots协议,可能爬取了不该爬取的数据,这并不是孤例。小红书法务总监曾翔表示,恶意爬虫案件经常发生在内容平台和电商平台。在内容、视频、图片、文字、网络名人互动数据、用户行为等方面。都是被抓取的,而在电子商务领域,多是商务信息和商品信息。

“内容平台一般会规定相关内容的知识产权归发布者或者发布者与平台* * *,而这些爬虫是在没有签订协议的情况下由用户授权的,涉嫌侵犯知识产权人的权利。”曾翔说。

还是要明确网站权限。

这就涉及到数据的归属和能否开放的问题。

上海市浦东区人民法院知识产权庭法官徐红涛认为,数据是内容产业的核心竞争资源,内容平台处理的数据往往具有极高的经济价值。

“如果要求内容平台运营商无限期向竞争对手开放核心竞争资源,不仅违背了‘互联互通’精神的本质,也不利于优质内容的不断变化和互联网行业的可持续发展。”许宏宇说。

恶意爬虫抓取数据案件频发的背后,是数据价值的提升,以数据为核心的市场竞争日趋激烈。

华东政法大学教授高福平表示,在大数据时代,数据的价值再次凸显,现在爬虫技术已经从最初的网络爬虫走向底层数据的抓取。数据爬虫的问题会越来越严重。

在大数据时代的背景下,越来越多的市场主体投入巨资收集、整理和挖掘信息。业内人士对此担忧:如果允许网络爬虫使用或利用他人通过巨额投资获得的数据资源,将不利于鼓励商业投资、产业创新和诚信经营,甚至可能直接违背数据源用户的意愿和知情权,最终损害良性竞争机制。

高福平认为,如果网站合法积累了数据资源,那么这些数据资源就应该属于网站的资产。“允许数据生产者和控制者为商业目的开放数据是有益的。通过许可和交换交易,更多的人可以享受数据服务。我期待在未来确认所有合法的数据生产者的控制权和使用权。”

有序流通同样重要。

目前,虽然网站可以指定相应的策略或技术手段来阻止爬虫抓取数据,但爬虫也有更多的技术手段来对抗这种反抓取策略。

刘说,反抓取和抓取的技术一直在迭代。在技术领域,没有爬不上去的网站和app,只有你愿不愿意爬上去以及爬上去有多难的问题。

据了解,现实中,恶意网络爬虫制作者在防御时,往往会将robots协议与数据流联系起来。徐红涛认为,在“互联互通”的背景下,“秩序”和“流通”同等重要,缺一不可,要杜绝打着“互联互通”幌子妨碍公平竞争、危害用户数据安全的行为。

“对于非搜索引擎爬虫的合法性判断,需要考虑是否足以保证用户数据的安全。用户数据,包括身份数据和行为数据,不仅在属性上是运营商的竞争资源,还具有用户的个人隐私属性,这类数据的收集更多的是与社会利益相关。”许宏宇说。

据了解,近年来,与数据安全相关的法律规范在不断完善。数据安全法作为数据安全的基本法,承担着解决我国数据安全核心制度框架的重任。此外还有2019通过的《密码法》,工信部拟出台的《工业和信息化领域数据安全管理办法(试行)》等。深圳、上海等一些地方也在探索制定相关的数据管理规范。