法说数据 | “爬”数据有哪些法律风险?

原标题:法说数据 | “爬”数据有哪些法律风险?

就互联网数据的获取而言,目前主要的方式是利用爬虫自动搜索并抓取数据。小编推测之所以爬数据这么风行,有俩原因,一是我们的各种可以爬取的数据资源太多了,白爬谁不爬。第二是跟风,对于很多自称大数据的企业,可怜的是手里的数据用一个U盘就能装下了,如果让人知道岂不是倍儿没面子?于是索性爬上它几个PB,也可以冠冕堂皇地说自己是大数据公司了。

于是乎,我们看到,一时间爬数据风行起来,甚至催生了很多以爬数据为主业的公司,很多提供爬虫服务的公司开发了可以爬取旅行网站、外卖平台、地图、共享单车等平台个人信息的工具,甚至可以定制化抓取,为客户爬到热乎乎的第一手原始数据。甚至有公司声称,可以爬取XXX平台用户的真实姓名、手机号、收货地址、近一年的购物信息,甚至详细到每笔交易的金额。

大家你爬我爬,上爬下爬,好不热闹!但从事数据合规工作的小编看到这些,内心是这样的:

小编想问,各位的爬虫完全合法地取得用户授权了么?授权充分吗?有没有关注robots.txt内容?有没有秀技术肌肉破解人家网站密码的?

之所以有这些问题,是因为2017年6月1日,一部非常重要的法律——《网络安全法》实施了。我们狗熊会数据合规研究中心的小伙伴们最近就接到了很多关于《网络安全法》的咨询。其中很多人的问题就是:请帮我们诊断一下,我们(用爬虫工具)这样爬数据会合法不?咨询的人里,有创业滴、教书滴,还有银行证券保险滴……看来大家表面上爬得都挺开心,但是私下还真都不太安心。

对于这些关于爬虫的咨询,不管咨询者来自何方,热心的小编逮住表现的机会,都会balabala一通普法,谁让咱狗熊会的使命之一就是:助数据产业振兴呐!

听完小编解答,大多数人是这样的:

也有这样的:

留下口干舌燥的小编,是这样的:

为了让更多的熊孩子以及狗熊会的伙伴们开开心心搞爬虫,大大方方爬数据,我们尝试梳理了爬数据可能涉及的几个重要法律问题(风险),供大家参考。

爬虫是一项技术,技术是中立的,对此没有任何疑问。小编认为,爬数据合不合法完全取决于你用爬虫爬什么,以及怎么爬。也就是爬的对象和姿势。其中,所爬取的对象又是关键中的关键,重点中的重点,同时小编也会给大家顺带介绍“姿势”(吃相)的重要性。

我们狗熊会的熊大说过,凡是能够被电子化记录的都是数据。今天,为了说明问题,我们将数据分为两大类:

  • 第一类,非个人数据(non-PII。即此类数据与个人信息无关(此处需注意,与个人信息无关不代表与个人无关,而是说不涉及个人隐私或者不能识别到具体个人)。此类数据通常是公开数据(当然也有作为国家秘密、商业秘密而采取保密措施不公开的秘密数据和秘密信息),因此不适用个人信息保护方面的法律法规。如企业工商注册信息、裁判文书(因涉密或个人隐私不公开的除外)、天气气象数据、环境监测数据、地理测绘、总体性的人口数据、网站访问记录等。

  • 第二类,个人数据(PII。即此类数据与个人信息有关,数据的来源是个人信息,且能够或可能识别到个人。其中又包括两类:

第一类,非个人数据(non-PII。即此类数据与个人信息无关(此处需注意,与个人信息无关不代表与个人无关,而是说不涉及个人隐私或者不能识别到具体个人)。此类数据通常是公开数据(当然也有作为国家秘密、商业秘密而采取保密措施不公开的秘密数据和秘密信息),因此不适用个人信息保护方面的法律法规。如企业工商注册信息、裁判文书(因涉密或个人隐私不公开的除外)、天气气象数据、环境监测数据、地理测绘、总体性的人口数据、网站访问记录等。

第二类,个人数据(PII。即此类数据与个人信息有关,数据的来源是个人信息,且能够或可能识别到个人。其中又包括两类:

已识别个人身份数据(personally identifiedinformation)。此类数据完全适用个人数据保护的相关法律法规。如姓名、家庭住址、电话号码等能够确定识别、关联到特定个人的数据,需符合个人数据保护法全部合规要求,包括知情同意、允许用户访问和更正、数据处理正当合法、目的限制、保障安全等。

可能识别个人身份的数据(personally identifiable information此类数据结合业务场景,灵活适用个人数据保护的相关法律法规如业务场景中,识别风险较高,可按照第二类数据的合规性要求处理,需满足全部合规要求;如识别风险较低,则可选择部分适用。

1

non-PII的爬取

小编先说说non-PII的爬取:

总体而言,市面上目前各家爬取的信息通常都是公开数据。爬取这类数据的风险系数相对较低,毕竟通常不会涉及个人隐私与个人信息,但也并非毫无风险。可能会有哪些风险呢?

  • 侵犯著作权的风险

侵犯著作权的风险

大众点评网诉爱帮网的车轮诉讼”是小编讲的口干舌燥的案例之一。在这场来回三轮的车轮诉讼中,我们知道,大众点评网在前两轮诉讼中就是以爱帮网侵犯著作权为由,起诉了爱帮网(第一轮因涉及部分爬取的内容被法院认定不构成作品同时起诉主体不适合为由而败诉)并且最终获得胜。

这个案子的基本情况是(仅截取第二轮的判决书):

所以,在爬取数据的时,要关注被爬取的对象是否是人家具有独创性的作品是我们第一要关注的问题。

可能有人会说,才判了这么点赔偿额?!继续爬!如果你这么想,小编也没办法了。

是不是抓取不够成作品的数据,就万事大吉了呢?答案当然是否定的。

  • 构成不正当竞争的风险

构成不正当竞争的风险

小编前面举的大众点评网诉爱帮网的案例,大众点评网也如有些朋友那样机智地发现,用著作权侵权起诉对方判赔金额太少了,于是在第三轮又以构成不正当竞争为由起诉了爱帮网,而且最终获得了法院的支持。

(注:为全面展示双方的攻防,小编特此展示了双方第三轮互相起诉的情况及判决结果,以示中立)

无独有偶,大众点评网在2016年还起诉了百度,原因是百度未经许可,使用爬虫技术从大众点评网上大量获取用户点评信息,用于自家的百度地图及百度知道产品。

最终一审判决认定百度构成不正当竞争行为,停止侵权并赔偿323万元。有图有真相:

这里提示大家注意的是,如果你的业务中存在可能爬取竞争对手数据的情况,要格外注意这项风险。法院会首先判断双方是否存在竞争关系,进而判断爬取数据的一方是否存在“不劳而获”和“搭便车”的行为。如果是,就是上面的结果。

可能有人会说,323万也不算多!继续爬!如果你这么想,小编只能说你有钱(种)。

小编在前面提到了吃相的问题。简言之,就是吃相不好看,后果很严重。对于non-PII的爬取,小编想说,“姿势”不好还可能引发如下刑事法律风险:

举个例子:2014年3月,被告人何某设立“车城小说”网站,其通过租赁海外服务器并运行其从互联网上下载的“关关采集”抓取软件,在未获起点中文网许可的情况下,擅自抓取、复制650部文字作品,存储于自己的服务器上,供“车城小说”网站用户免费阅读。何某通过在“车城小说”网站网页内刊登广告获取广告收益,非法营利数额达人民币19万余元。

  • 构成侵犯著作权罪

构成侵犯著作权罪

有这样的一个案例,被告人何某将他人网站上的小说爬取到自己的网站上供用户免费阅读,然后通过广告的方式获利。后来何某因为涉嫌侵犯著作权罪被抓。法院认定,何某抓取并通过信息网络传播作品的数量高于法定追诉标准的500件,且营利数额超过5万元,构成侵犯著作权罪,判处有期徒刑1年,并处罚金10万元。

以下是案件的基本情况:

除了可能构成侵犯著作权罪,还有吗?当然有。

  • 构成非法侵入计算机信息系统罪

构成非法侵入计算机信息系统罪

《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。

  • 构成非法获取计算机信息系统数据罪

构成非法获取计算机信息系统数据罪

《刑法》第二百八十五条还规定,违反规定侵入普通的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据的,情节严重的,构成非法获取计算机信息系统数据罪。

此前有南京同享网络法定代表人张某、副总经理沈某组织员工编写模拟程序,非法获取掌门科技“WIFI万能钥匙”数据库内的WIFI热点密码数据案,最终法院认定构成非法获取计算机信息系统数据罪,上述两人最终被判刑三年并处罚金。

案件基本情况如下:

小编在此提示那些自信“没有我们爬不到的数据”的技术大牛,千万不要在刑法面前任性,否则后果很严重。因为《中华人民共和国刑法》不但记录了各种“发财”的门路,同时还专治各种不服。

总结:爬取non-PII数据总体风险较低,但仍不要大意,轻则可能构成侵犯著作权(在被爬取的数据具有独创性构成作品的情况下),如果有竞争关系,还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行,涉嫌构成不正当竞争;重则可能因绕开技术措施非法获取数据,涉嫌侵犯商业秘密(严重情形涉及刑事责任),涉嫌构成非法侵入计算机信息系统、非法获取计算机信息系统数据罪等罪。

总结:爬取non-PII数据总体风险较低,但仍不要大意,轻则可能构成侵犯著作权(在被爬取的数据具有独创性构成作品的情况下),如果有竞争关系,还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行,涉嫌构成不正当竞争;重则可能因绕开技术措施非法获取数据,涉嫌侵犯商业秘密(严重情形涉及刑事责任),涉嫌构成非法侵入计算机信息系统、非法获取计算机信息系统数据罪等罪。

2

PII信息的爬取

接上一部分,我们再说说PII爬取过程中需要注意的问题。

对于PII信息的爬取,是否经过用户授权是核心。用户未授权或者授权不充分风险很大。

小编在此给大家讲讲新浪微博和脉脉“抓站”案,一个因为开放API爬取数据引发的案子,说说通过API协议爬取数据的风险。

故事发生在2014年8月,当时刚刚起步的职场社交软件“脉脉”与新浪微博微博闹掰了。

故事的主角之一“脉脉”是一款移动端的人脉社交应用。上线之初,曾与主角新浪微博合作,脉脉的新用户可通过微博账号和个人手机号注册登录脉脉,用户注册时还要向脉脉上传个人手机通讯录联系人。

随后,新浪微博发现,脉脉用户的“一度人脉”中,直接显示大量非脉脉用户的微博头像、名称、职业、教育等个人信息。

2015年3月,微博主体公司将脉脉主体公司告上法庭。

原来,在用户微博登录脉脉并上传个人通讯录之后,大量非脉脉用户的微博头条、昵称、职业、教育等信息出现在脉脉上,这些信息并不在微博与脉脉开放API协议之中,并且在微博停止脉脉所有接口权限之后,脉脉依然进行了相关数据抓取,微博认为脉脉通过非法手段获取信息。

2016年,这个案件历时一年半的时间,终于有了结果。最终的判决是这样的:

这个案件的意义在于,司法机关在本案中明确了一个规则,即平台要获取用户信息必须获得授权,平台之间通过开放API爬取数据必须经过“用户授权-网站授权-用户授权”的规则。

遗憾地是,本案中,作为受害者的用户缺席了这场纷争。但是小编提示的,过去用户缺席不代表未来继续缺席。对于抓取PII数据,无论是直接爬取还是开放API的方式,最为关键的就是“用户授权-网站授权-用户授权”的规则。否则除了可能构成不正当竞争(双方存在竞争关系的情况下),还将面临着非法获取数据(未经用户授权)的指控(民事、行政乃至刑事责任)。

《网络安全法》第六十四条规定,违反本法第四十四条规定,窃取或者以其他非法方式获取、非法出售或者非法向他人提供个人信息,尚不构成犯罪的,由公安机关没收违法所得,并处违法所得一倍以上十倍以下罚款,没有违法所得的,处一百万元以下罚款。

《刑法》第二百五十三条之一规定,违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。

窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。

单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。

同时,与《网络安全法》同日实施的最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》已经明确:

历史上这样的案例很多。

狗熊会数据合规中心的小伙伴们在检索案例时发现了如下案例:王某非法获取中国兽医执业资格考试网站的考生注册信息数据刑事案件,判刑三十个月;陈某等非法获取福建省公安厅交通警察总队的计算机系统的违法车主信息刑事案件,判刑三十六个月。

两个案例的详细信息如下:

此外,除涉及侵犯公民个人信息罪,如小编在本文第(一)部分所言,还可能涉嫌构成非法获取计算机系统数据罪。我们的案例库中有这么一个案例:周某某利用Cookie劫持的方式,绕过圆通快递金刚系统权限认证爬取快递单信息,构成非法获取计算机信息系统数据罪,判刑三年三个月。

该案例信息如下:

总结:爬取涉及个人信息的数据总体风险较高,如果爬取数据没有获得用户授权(包括通过API接口爬取数据的情况)则存在侵犯人格权(民法总则已经明确个人信息权是一种人格权)的风险,同时,爬取存在竞争关系平台上的数据时,还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行,涉嫌不正当竞争;更严重的是,还可能因非法获取公民个人信息、非法侵入计算机信息系统、非法获取计算机信息系统数据等涉嫌犯罪,招致刑罚。

总结:爬取涉及个人信息的数据总体风险较高,如果爬取数据没有获得用户授权(包括通过API接口爬取数据的情况)则存在侵犯人格权(民法总则已经明确个人信息权是一种人格权)的风险,同时,爬取存在竞争关系平台上的数据时,还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行,涉嫌不正当竞争;更严重的是,还可能因非法获取公民个人信息、非法侵入计算机信息系统、非法获取计算机信息系统数据等涉嫌犯罪,招致刑罚。

是不是有点怕怕了?小编想说的是,不做亏心事,不怕鬼叫门。

最后,小编提示各位,爬虫有风险,抓数需谨慎,小心驶得万年船

时间关系,本次关于爬虫爬数据的话题就聊到这,敬请大家关注狗熊会数据合规研究中心后续文章,也期待大家与我们积极互动。

视频only!

返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
免费获取
今日搜狐热点
今日推荐