大数据公司又被查，爬虫程序员在内20余人被抓！

最近，江苏淮安警方严厉打击了7家涉嫌侵犯公民个人信息和非法存储1亿多条公民个人信息的公司。

其中，拉卡拉支付给考拉信用局，指控其非法提供超过9800万次身份证回扣查询，获利3800万元。

警方逮捕了20多名涉案人员，包括考拉信用咨询服务有限公司和北京海格公司的法定代表人、董事长、销售和技术人员。

01.“爬虫”软件“爬出”的犯罪链条

警方发现，尽管涉案的广州诺汉公司被一家科技公司所掩盖，但该公司实际上参与了非法犯罪行为，如网上贷款、软暴力收集和出售公民个人信息。

在他们出售的公民的个人信息中，甚至会出现公民身份证的照片信息。他们从哪里得到如此绝密的个人信息？

警方发现，在广州诺汉科技公司，公民的个人信息被称为“流量”。该公司开发了几个小额贷款平台，如“华乐巴特勒”。在购买公民个人信息用于贷款促销和软暴力收集的同时，公司还与其他公司交换公民个人信息。它还开发了爬虫云(crawler cloud)等软件，通过企业贷款和非法牟利销售的技术手段，抓取其他小额贷款公司公民的个人信息。

淮安警方锁定相关犯罪证据后，分别在长沙和深圳逮捕了湖南九祥公司的法定代表人和技术负责人。

据讯问，九香黑色爬虫网站的“身份验证返点”服务端口来自北京海格科技有限公司，而海格公司是从北京考拉信用信息服务有限公司等四家公司购买的查询接口

警方随即逮捕了涉案人员20多人，其中包括北京海格公司和考拉信用参考服务有限公司的法定代表人、董事长、销售和技术人员，并于今年4月逮捕了5名涉案人员。

经调查，北京考拉信用咨询服务有限公司在从上游公司获得查询界面后，非法出售查询界面，并非法缓存公民个人身份信息，供下游公司查询盈利，造成包括身份证照片在内的公民身份信息大量泄露。

非法缓存相当于复制公民个人信息的副本并保存在那里。当下游公司通过数据接口从其检索数据时，它不需要从上游检索数据，因此节省了费用。这是非法的。

据调查，自2015年3月以来，北京考拉公司非法提供查询回扣9800多万次，获利3800多万元。近1亿名非法获取和存储的公民姓名、身份证号码和照片已经从该公司的服务器上被没收。

02.我只是个写爬虫的，跟我有什么关系?

许多程序员认为技术是无辜的。我只是一名兼职程序员。这家公司做非法生意。这与我无关。只能说，程徐苑人真的是心碎了。

让我们看看几个真正的法庭案例:

案例一：数据拥有者有证据能够举证你的数据是抓取来的。。今天的头条是上海圣品法院的判决。

(图片和文字来自中国判断文档网)

从文档描述来看，修改用户界面、修改设备标识、绕过网站访问的频率控制是编写爬虫的基础，而这些技术方法反而成为定罪的基础。

案例二：抓取用户社交数据，尤其是用户隐私相关。

案例3:利用爬虫技术扰乱对方网站的操作规则并获取利润。例如，这:

(图片和文本来自中国永嘉公共号码)

图片中描述的搜索引擎排名技术实际上是使用爬虫技术大规模访问网页。

在我们通常的认知中，因为互联网高度重视分享的精神，我们认为只要数据可以在互联网上公开获取，就可以获取。然而，从上述案例来看，有几个禁忌。最好不要将捕获的数据直接用于商业目的，在涉及社交信息/用户信息时要小心谨慎。

03.程序员如何避免，面向监狱编程?

当老板告诉你抓住敏感的任务时，让老板去做

一、著作权法保护的所有作品数据

使用爬虫技术抓取数据，然后保存或传播数据并获取利润是犯罪行为。

二、网站用户的个人信息或者隐私信息

网站上个人用户的个人信息，即使用户将其放在一些面向公众或部分公众的网站上，如微博和微信，也并不意味着其他人可以自由获取数据。应该特别注意这一点。

因此，对涉及个人信息或私人信息的数据进行爬网是非法的！

也有一些爬网程序试图绕过权限检查和其他内容，并爬网用户未发布的信息，如个人私人相册和照片等。这些都属于侵犯用户个人隐私。不要认为你的技术玩得很顺利，这些都是非法行为。

三、反不正当竞争法中明确保护的数据

许多网站的数据都是由用户生成的，这些数据和内容是原告网站的主要竞争来源。如“XX点评”、“x集团”上面的门店评价、评论等信息，“x诚网”上面的酒店评价评论等信息。

那么，未经许可抓取其他网站的核心数据显然不符合《反不正当竞争法》中规定的自愿、平等、公平、诚实和可信的原则。

在“XX点评”诉X度“不正当竞争”和“X波微博”诉X莫迈“不正当竞争”的案件中，法院均认定被告擅自从原告网站上抓取和使用数据违反了诚信原则和公认道德，损害了互联网的市场竞争秩序和原告的竞争优势，从而构成不正当竞争。

因此，如果你在大学拨款委员会模式的网站上获取用户发布的信息，如某某评论、某某博客、某某电影、某某胡等。并且在您自己的产品或服务中发布和使用此类信息，则存在更大的不公平竞争风险。

怎么爬数据算犯法?

如果您对公共数据进行爬网，通常不会被视为侵权。谷歌、百度和其他搜索引擎都是这样爬行的。

所以，如何抓取数据很可能违反法律，主要考虑是否涉及以下两种行为:

没有遵守网站Robots协议

Robots协议是技术社区为解决抓取方和被抓取方通过计算机程序交流他们愿意抓取的问题而产生的机制。

通过技术手段，绕过防护措施，抓取数据

许多网站运营商将采取技术措施防止爬虫批量获取网站信息，因为爬虫的大规模访问将给网站带来巨大的压力和负担。

因此，许多爬虫工具会试图通过各种手段绕过保护措施来抓取数据，但这种行为也将违反法律。

抓回来的数据怎么用会犯法?

许多公司开发的爬行器遵守机器人协议，没有爬行不应该爬行的数据。这样获得的数据可以随便使用吗？事实上，事实并非如此。如果使用不当，也会触犯法律。

例如，通过爬虫捕获的数据来获取利润、损害他人利益、伪造、诽谤等等是可能违反法律的。

此外，即使合法收集的公民个人信息未经被收集者同意提供给他人，也是《刑法》第253条规定的“提供公民个人信息”，这可能构成犯罪。

随着科学技术的飞速发展，人们开始追求各种便捷的生活方式。然而，在便利的背后，个人信息安全是不可忽视的。浏览器、社交平台等等都有可能泄露隐私。

个人隐私泄露有严重的安全风险！如何防止个人信息泄露？让我们看看一些预防的技巧:

一方面，它暴露了个人隐私，如姓名、工作单位、家庭地址等。另一方面，它可能导致犯罪。当使用手机在线登录时，应该小心。

极牛网精选文章《大数据公司又被查，爬虫程序员在内20余人被抓！》文中所述为作者独立观点，不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处：https://geeknb.com/3483.html

大数据公司又被查，爬虫程序员在内20余人被抓！

01.“爬虫”软件“爬出”的犯罪链条

02.我只是个写爬虫的，跟我有什么关系?

03.程序员如何避免，面向监狱编程?

相关推荐

发表回复