只因写了一段爬虫,公司200多人被抓!

article/2025/8/25 13:28:41
640?wx_fmt=jpeg
“一个程序员写了个爬虫程序,整个公司200多人被端了。”
“不可能吧!”
刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有写过几段爬虫呢?只因写爬虫程序就被端有点夸张了吧。
朋友说,消息很确认并且已经进入审判阶段了。
01.对消息进一步确认
朋友认识几个律师朋友,和他们有一些业务来往,得知他们想尝试把业务扩展到程序员这个群体。那段时间我刚好离职也有时间,在朋友的安排下一起聊聊看看有没有合作的机会。
他们为什么想扩展人群到程序员这个行业呢?其实就是因为他们代理了这名程序员的官司,才发现很多程序员完全不懂法,直接说是法盲一点都不过分。
刚好我也很好奇程序员因爬虫被抓这个案子,看看到底是怎么回事,就和两名律师以及朋友坐到一起,深入交流后才知道整个事件的来龙去脉。
这名程序员在被警察逮捕后,警察审问期间一直不承认自己触犯了法律,并且也完全没有意识到自己犯法了。进去之后总以为警察搞错了,过几天就会把自己放出来,结果也错过了取保候审的机会。
律师说,这名程序员的妈妈当时在他毕业的时候,就因程序员这个行业太辛苦不同意他做程序员,但他对这个行业一直都很感兴趣,坚持做了一名码农,没想到两年后出现了这个事情。
他们家里人都后悔死了,距离事发当日到现在已经过去了半年,当事者还被关在监狱中。不管这件事如何收尾,对这名程序员和他的家庭都是一个很大的打击。
以下内容根据部分推测和网上资料整理而出,可能会有细微偏差。
640?wx_fmt=png

02.一个爬虫引发的案件

某一个知名互联网公司,突然发现公司的服务器连续几天压力倍增,导致公司内部系统崩溃不能访问,公司领导责令技术部尽快解决。
该公司系统平时访问量一直比较平稳,但不知为何这几天系统压力突然大增,经过技术人员几天调查发现了一个惊人的真相,公司客户信息被抓取,并且某个接口访问量巨大。
随着技术人员的深入调查发现的现象更加震惊,入侵者利用这个入口已经窃取了大量的客户信息,并且所有的线索都指向了一家大数据公司。
这家公司的主要业务就是,出售简历数据库。经核查该公司出售的简历数据中,就包含自己家客户的简历信息。
技术部上报领导之后,公司开会商议后决定报案。
03.案发现场
案发前一段时间,小明(化名)接到了技术部领导的需求,要求写一段爬虫批量从网上的一个接口抓取数据,爬虫开发完后测试没有问题,小明就将程序上传到了公司服务器。
程序运行了一段时间后,也许是有了新的需求,也许是小明想对爬虫程序进行进一步的优化,将爬虫的线程数,由原来比较小的值调到一个比较大的值。
完善后的程序上传到服务器后,小明跟踪了下爬虫的进展,运行平稳并且速度快了很多。提交之后像往常一样,小明就把这件事情忘了。
小明没想到自己这次提交的爬虫程序,竟然能把对方的服务搞挂了,也没想到自己因为写了一段代码而坐牢。
640?wx_fmt=png

04.整个公司被抓

2019年的某一个工作日,公司员工像往常一样忙忙碌碌,某个程序员和产品经理正在为了一个需求争吵,小明带着耳机正坐在办公室敲代码。
突然就来了一大群警察,要求所有人离开工位,双手离开电脑、手机等设备。整个公司的人都懵了,不知道发生了什么事情,但也都照办了。
警察很快查封了公司的所有办公用品,问技术部相关人员要了服务器的信息,公司全体上下 200 多人无差别的全部送到看守所了解情况。
在去看守所的路上,大家都还心里想这是不是搞错了,我们只是一个科技公司公司又没有骗人,怎么就集体被抓了。
小明也一直认为自己没有犯罪,自己只是一名技术人员而已,所有的工作也都是按照领导要求来执行的,应该很快就会把我们释放了吧。
随后,公司非核心人员都被释放了出来,主要集中在 HR、行政人员。最后确认公司 36 人被捕,其中大部分是程序员。
被捕后小明委托的律师事务所,就是和我们交流的两位律师的事务所,据说小明入狱后就一直不认为自己有罪,也因一直拒绝认罪从而错过了取保候审的机会。
目前小明还在等待最后的审判。。。
05.涉事公司背景
640?wx_fmt=png
巧达科技号称是中国最大的用户画像关键数据服务提供商,专注于大数据及人工智能领域前瞻性产品研发,客户覆盖互联网行业及泛金融领域。
高管多为百度出身,公司2017年净赚1.86亿元。
公司2014年7月成立,B轮估值2亿美元,目前已经到了C轮融资阶段,投资者包括李开复创新工场、百度风投齐玉杰、中信产业基金、人工智能产业基金等等。
巧达的创始人成予曾经是百度第一任产品部负责人、联合创始人沈毅曾经是百度电子商务事业部技术总监和百度爱乐活技术副总裁。
公司曾宣称通过整合多达2.2亿份自然人简历、100亿个用户识别ID组合和1000亿+用户综合数据,绘制出了涉及中国8亿人口的多维度数据。其中,包含个人隐私与非隐私信息。
此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科技自称拥有超过8亿自然人的认知数据。
也就是说,超过57%的中国人的信息都在巧达科技的数据库里面。
“基本上所有你能数的上名的大型互联网公司,都是巧达科技的客户。”一位之前简历中介生意的从业者。
06.近期多个大数据公司被查
最近的大数据行业,风声鹤唳。
在中秋节前一天,中国电信控股的子公司天翼征信传出风声,其总经理、副总经理以及市场人员被警察带走,原因是与其合作的大数据公司被警方调查。
在天翼之前,新颜科技CEO黄向前被警方带走、魔蝎科技公司CEO周江翔涉事被查、公信宝公司门口被贴了封条、知名第三方数据服务公司聚信立宣布将暂停对外提供用户授权的运营商爬虫服务……
此外,国内大数据风控平台龙头同盾科技也被曝爬虫部门已解散,CEO蒋韬已出国避风头,对此,同盾科技昨日发表辟谣声明表示,子公司杭州信川科技有限公司确实停止爬虫业务,但其他言论均属不实。
.....
据内部消息,最近监管对数据乱象出手,开始清理行动,15家公司被列入调查名单,其中几家估值都超几十亿。
国内很多大数据公司的数据来源多多少少都有一定的问题,随着我国今年6月1日起,《中华人民共和国网络安全法》将实施,所有的网上行为将越来越严格,如果还按照之前的惯性去操作,迟早会出问题。
07.程序员谨慎使用技术
不知道大家是否发现,随着国家经济的不断发展,以前可能处于灰色阶段的行业,现在几乎都慢慢不能做了。写这篇文章的目的,也是为了警示大家技术是无罪的,但是用到了错的地方代价也是非常巨大的。
我之前看过这样一个报道,一个程序员因为爱好写了一个小程序,并且把此程序上传到了互联网上,没想到过了两年之后,有人利用这个小程序非法获利500多万。
虽然这名程序员并没有因为这个程序而获利,但是间接给犯罪人员提供了犯罪的工具,最后被判刑 2 年缓期 2 年执行。
程序员的生活是简单的,工作大概也只关心代码和BUG。小明也从来没有把自己的职业和犯罪联系在一起。
技术本身是不违法的,就好像一把水果刀,如果用来削苹果削梨没有任何问题,但是用来伤人就是凶器,就要被列入物证list。
爬虫也是如此,在大多数情况下,只是采集互联网上的公开信息,很难说是违法行为。但是一旦涉及入侵到别人系统去获取数据,那必然存在着法律风险。
可能很多同学是懵的,很多互联网公司就是靠抓取数据活着的。他只是正常执行公司安排的工作任务,怎么就涉嫌犯罪了呢?
这里结合律师朋友给出的一些建议,这里摘录出来仅供参考。
08.单位犯罪和个人犯罪的关系
首先了解一下单位犯罪。除了自然人犯罪,还有单位犯罪,是指公司、企业、事业单位、机关、团体为单位谋取利益,经单位决策机构或者负责人决定实施的,法律规定应当负刑事责任的危害社会的行为。
我国刑法对单位犯罪原则上采取双罚制度,即单位犯罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员判处刑罚。相关司法解释规定,在审理单位故意犯罪案件时,对其直接负责的主管人员和其他直接责任人员,可不区分主犯、从犯,按照其在单位犯罪中所起的作用判处刑罚。
因此,公司犯罪有可能会牵连员工,尤其是案件中对非法获取数据有直接责任的爬虫工程师。这也是为什么当事人在公司人小言微但还是被批捕的原因。
其次,是否可以“不知者不为罪”来辩解?刑法原则之一是法无明文规定不为罪,并没有“不知者不为罪”。主观上的恶意是衡量犯罪的要素之一,结合客观上的行为来推理主观恶意。破解别人的服务器,获取别人不公开的信息,不能说没有恶意,不能以不懂法来搪塞。
09.重点:什么样的爬虫是违法?
如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。
除此之外,根据相关规定,对于违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,窃取或者以其他方法非法获取公民个人信息的,均可构成成“侵犯公民个人信息罪”,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
重点关注:下列情况下,爬虫有可能违法,严重的甚至构成犯罪。
  1. 爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。

  2. 爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”

  3. 爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。

10.最后

最后提醒大家敬畏法律,热爱生活。
愿每一个程序员都可以用自己的技术去改变世界,让我们的社会变得更加美好!

参考:

燃财经:利用爬虫获取简历 36人被批捕  

支付百科:现金贷风控遇至暗时刻:整个行业快被抓完!

新福利:

从9月11日开始至10月15日截止,一共五周时间,每周二我会从公众号底部留言+转发+在看综合最多的读者中抽取一名读者,免费包邮送实体新书《HBase原理与实践》,留言互动起来吧~

上周获奖名单:xjy

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

猜你喜欢

1、

2、

3、

4、

640?wx_fmt=png

过往记忆大数据微信群,请添加微信:fangzhen0219,备注【进群】


http://chatgpt.dhexx.cn/article/x7Xb4yrv.shtml

相关文章

一生中用来开会的时间,你知道有多久吗?

日程提醒14:00的会议即将开始,这已经是这周内的第N场会议了。 每次走进会议室前都下定决心,一定要全神贯注,全程积极思考,但总会迷失在冗长低效的会议现场。 期待着能和同事一起快速找到问题的解决方案,但总是在你一言我一语中头昏脑胀,话题经常被扯远,找不到重点和方…

读书笔记 -公司改造 和 紧迫感

读书笔记 -公司改造 - 三枝匡 读书笔记 -公司改造 - 三枝匡 2022 年夏天的时候在微信读书上读了这本书,这是我们 CSDN 的创始人蒋涛推荐的,当时记了一些笔记如下。 总结: 作者:三枝匡,咨询顾问,企业家。…

华为某程序员晒出工作安排,一天平均开会6次,网友:你是CEO?

不知道大家有没有同样的感觉,现在很多领导特别喜欢开会,有的从早上开始开会,中午也要开会,加班时还要开会,已经形成了一种风气,要是不开会总感觉缺少了一点东西。但是开会太多,其实真的挺浪费时间,而且下属也很反感。 最近在职场论坛上看到这样一个帖子:华为某程序员…

牛X公司的开会方式,明天开始参照执行

来源:正和岛内容部,作者:陈为 根据媒体公开资料整理 开会是很多公司的“痛点”,常见的场景是开会时七嘴八舌,漫无边际,议而不决,决而不行。会议冗长拖沓,沉闷低效,对员工…

上家公司离职原因

目录 1、前言 2、评论内容 1、前言 去年年底的时候,在BOSS直聘上发了一个帖子,内容为: 上家公司离职原因? 回答提示: 1、不合理的加班(无偿加班) 2、公司搬迁 3、寻求更好的发展空间 4、项目…

你真的会开会吗?开会无用说

有一句话说的很好:作为一名技术管理人,你有一项职责就是让你的小伙伴多写代码,少开会! 今天我们不聊技术,来探讨一个很多程序员日常工作中,经常碰到却会带来困扰的话题:开会。 头疼的开会 有一…

python 导入自定义包

路径设置 对于以下的自定义包的导入,首先需要加入该包的位置到python的环境变量里面。通过sys: import sys sys.path.append(D:\Codes\Pycharm\core-algorithm-master)from algorithms.ch02sort.base.template import SortTemplate

python的包内绝对导入,相对导入以及环境变量路径问题

学python的过程中遇到的模块导入问题造成了我很长时间的困顿,最近再重温一下模块的导入和包内模块导入,发现了一些新东西,所谓温故知新,确实如此,特来记录。 1. 模块的导入和环境变量 首先要清楚一点的是&#xff0c…

Python import无法导入包问题

一个文件夹下的同一级的文件,import 时却无法导入,怪哉?! This inspection detects names that should resolve but dont. Due to dynamic dispatch and duck typing, this is possible in a limited but useful number of cases. Top-level and class-level items are suppor…

python中包的导入

包的导入 包的概念包的使用问题 包结构与__init__.py文件 from XXX import * 绝对导入与相对导入 包内部的相互导入/python解释器眼中的顶级包 —:包的概念 可以简单的理解为包就是一个包含着__init__.py文件的文件夹,里面包含着多个文件&#xff0…

python导入栈包

项目场景: 最近刚刚学完了python以及爬虫,数据可视化等几个专题的练习,接受老师建议开始学习python结构数据预算,结果第一章一个栈就差点把我送走。 问题描述: 利用栈实现进制转换出现报错。 from pythonds.basic.s…

python导入Wordcloud包

这个问题弄了我两天时间,找了好多帖子,都没导入成功,还是大佬帮忙,一下子就解决了,归根结底是我太菜了,含泪记下之前的错误方式及步骤,便于以后查找 一、settings直接导入 pycharm中settings小…

关于Python包导入报错的总结

首先,一般来说,写一个小demo可能一个文件就够了,但是要是做一个小项目,可能需要拆分成很多零散的文件,放在不同的文件夹里面调用,这个就称之为模块(包),Python的导包是一件令人头疼的事情,当文件多了之后,同样的导入方式可能在不同的场合遇到解释器抛出异常 错误记录: 1. Mod…

python导入自定义包时无法导入自己定义的包

python导入自定义包时 显示找不到包,如下图 处理方法如下: 点击文件夹选择工作目录 点击后就可以正常导包啦

python 导入自定义的包

有时候我们需要在程序中导入额外的python包,这个时候就需要用到这里的知识.这里介绍两种导包方式. 一. 手动导包 其工作的原理就是将搜索路径加入python的sys.path 数组中. python工作的时候会自动搜索sys.path 中所有的目录,那么我们 可以自定义一个目录,然后在目录中建立一…

VSCode python 导入包之后显示下划黄线

在 VSCode 中编写 python 脚本,在 import 包的时候显示下划黄线,如下所示: 通过 pip show 命令查询可知 serial 和 tqdm 已经成功安装,路经如下所示: 则在设置里面搜索 python.analysis.extraPaths,手动输…

python导入包如果找不到

说明系统中可能没有前缀,可以在sys.path中加入各类查找路径,这样编译的时候会进行这些前缀的检索,如果是当前目录的,则不用加,直接Import那个包即可。

python如何导入包

包(模块)的命名规范: 为什么需要遵循命名规范?如果包的命名不遵循命名规范 ,那么在导入包时即使方法是正确的,也无法有效的导入该包 1.命名有字母、数字和下划线三个组成 2.项目名、包名、模块名、pytho…

【查看Python导入包的地址】

查看Python中import的包的绝对地址: 【效果】: 【代码】: #将package_name换成需要查找的包 import package_name print(package_name.__file__)

python怎么导入包-python如何导入包

本文主要讲解python导入包的几种方法 一、模块的导入方式 模块就是.py类型的Python文件 导入时不需要.py后缀,直接导入文件名即可 利用import直接导入: 语法:import module_name 使用方式:module_name.class_name或者module.func_name 利用import导入模块并设置一个…