2019年国内IT行业就业状况分析,你拖后腿了吗?

article/2025/8/24 9:58:14

                                                                                   

点击上方“后端技术精选”,选择“置顶公众号”

技术文章第一时间送达!

作者:刚入道的大学僧

本文系投稿,原文内容点击阅读原文直达

640

一、分析背景与分析目的

随着科技的迅速发展,计算机的普及及对人类生活的渗透,越来越多的高校 开设“计算机科学技术”专业及其他相关专业,使其成为了全国热门专业之一,同时伴随着大量创新的计算机职业岗位的出现。岗位的出现必然对人才提出了充分的需求。

但是,就目前而言,计算机专业就业整体下滑。当前社会就业竞争激烈,IT行业虽然发展速度快、人才缺口逐渐增大,但是很多IT行业求职者求职目标不明确、不了解就业行情,大学毕业生的就业压力更是空前扩大,面对一个自己心仪的公司,可能要和很多人竞争一个岗位。对于有些专业技能硬和综合素质高的应聘者,由于不了解就业行情以及企业招聘需求、缺乏应聘经验和策略,屡次与自己理想的企业擦肩而过,而企业也不易招聘到所需的可靠型人才。

针对这一日益突出的就业问题,我们想到应用当今热门的大数据分析与应用技术,对计算机行业招聘信息做一些比较详细的分析。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,近年来互联网和信息行业的发展而引起人们关注。随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业,企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力。因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。

我们这一项目研究能够帮助应聘者以及即将步入社会的大学生大体了解策略和方法,在求职时有更清晰、明确的目的性和针对性。我们通过爬取各企业招聘信息,立足于帮助应聘者们明确企业需要什么样的技术型人才、各种职位的薪资水平以及热门程度、竞争力大小等等,对有关IT行业最新的的招聘信息进行统计和分析,并以网页和微信小程序等形式可视化呈现出来,力求帮助求职者更多地了解企业招聘的动向、职场信息的变化、当今社会最紧缺、最热门的技术等等。我们希望通过我们的数据分析,可以帮助学生或者准备跻身于IT行业的学习者们明确学习动向、确立更清晰的学习目标和努力方向;帮助求职者们在职场清晰完美的展现风采,增加就业竞争力;帮助企业招聘者了解国内各知名企业招聘的大体趋势,以便做好招聘方向的调整。

二、分析思路

在进行数据分析之前,我们团队已经对51Job人才招聘网等国内各招聘网站进行了招聘信息的爬取,我们主要利用Python爬虫技术获取到了网站上各计算机行业相关的不同地区的详细招聘信息,我们获取的信息属性主要包括信息来源、发布时间、招聘岗位名称、工作所在的省市、地区、对求职者工作经验的要求、学历要求、岗位职责要求、其他要求、员工福利、员工上限、员工下限、员工均值、招聘人数、工作所属公司、公司主要经营类别、公司性质、公司介绍、薪资区间、薪资上限、薪资下限、薪资均值,总计上百万条数据。

随后,我们又使用Kettle对这些数据进行了数据清洗。这些具有规模性、真实性、时效性、结构性的数据为我们团队的数据分析奠定了良好的基础。

我们团队人员通过共同协商,最终决定先从各省市职位需求量及平均薪资水平、招聘信息中出现的热门技术关键词和福利关键词、编程语言热度等方面进行数据分析,然后再进行较为深度的时间序列预测、协同过滤推荐等算法分析。分析的工具主要选用Python3,因为Python中含有大量如同Pandas、Numpy、Matplotlib等第三方模块,非常方便数据的归类分析处理以及可视化展现。为了使数据分析的结果以更直观的形式展现,我们又使用了Tableau和java。

最终我们选择了通过网页前端以及手机客户端用户App两种软件形式比较完美地将数据展示出来。我们拟定的数据分析主要内容层次结构如下图所示:

三、分析内容

640

图1: 数据分析层次结构图

1、我们首先从整体分析,从全国各地区计算机相关职位需求量的分布情况入手进行分析,主要分为三个步骤,层层递进。

1)第一步,我们首先做了对各个城市职位需求量的统计,得到了存放相关数据的表格,并选择了职位需求量排名最多的前十名城市通过matplotlib进行展示,如下图所示:

640

图2: 排名前十城市的职位需求量

2)那么各个地区都需要招聘什么岗位呢?于是我们将各地区的招聘信息按照职位不同进行分类,统计各地区不同职位的招聘需求量,侧面反映出就职岗位的热度。图3所示以广州市为例,最热门的职位招聘需求量统计。由于这条分析内容较为复杂,为了更有层次感地完成这项分析任务,我们创建了数据库,并在自己开发的网站上利用SpringBoot、Mybatis连接高德地图API进行经纬度匹配,利用多维度GIS方式展示,效果图如图4所示:640

图3: 各地区不同职位的招聘需求量

640

图4: 多维度GIS展示最热门的职位招聘需求量

3)每个岗位的薪资水平又如何呢?这些职位的最高薪资和最低薪资的差距有如何?对此,我们进行了稍微更深层次的分析。根据较为科学的统计方式,平均水我们选用算术平均数来表示,薪资上下限的差距属于数据的离散程度,因此我们选用了标准差这一指标,数学理论计算公式如下:

640

图5: 标准差计算公式

其中,N代表自由度,xi表示不同样本的值,这里指各个职位的薪资均值,r表示样本均值,这里指所有职位薪资均值的平均值。根据公式我们进一步编写了python程序并得到了进一步分析之后的数据,用Tableau呈现的效果图如图6。640

图6: 广州市各职位薪资均值及标准差

2、最热门的几种编程语言,根据招聘信息中编程语言出现次数而统计热门度。

640

图7: 最热门的几种编程语言及出现频次

3、我们利用python3的jieba模块对招聘信息进行关键字提取,最热门的技术,统计出几种最热门的技术关键词,所占比重如下图:640

图8: 最热门的几种技术关键词及出现频次

4、求职者非常关心工作的福利待遇,因此我们又对各企业对招聘职位的福利进行了关键词提取分析,各关键词占比如下图。640

图9: 招聘职位的福利关键词

5、以上数据分析结果只是能展示出来,没有明显的实用效益。为此,我们更深入地探究了一下,采用了数据预测算法预测趋势数据预测采用ARIMA模型(Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,见图10,通过数据与本身之间的关系进行对未来数据走向的预测。640

图10: ARIMA模型

6、我们还进行了一项深入分析——基于皮尔逊相关系数的协同过滤算法。根据这个算法,我们就可以为不同用户推荐他们各自感兴趣、适合他们的招聘信息。皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。640

图11: 皮尔逊相关系数模型


四、结论与总结

通过对采集到的计算机相关招聘信息的较为详细的分析,我们团队总结出了以下几点结论:

1、总体而言,我国计算机行业相关的职位需求量很大,尤其广州、上海、深圳等科技发达的沿海城市,对计算机类人才的需求还是很多的。其中职位需求量最大的为广州市,在本次统计中累计达到148737。

2、从计算机相关的各职位而言,开发类工程师的人才需求量非常多,且薪资水平是相当高的。此外,由于如架构师这样的职位必须具备非常广泛的专业技能,所以这类职位薪资水平相对较高,本次我队统计的架构师薪资均值高达约2.4万人民币/月。计算机类的工程师、开发人员的薪资水平一般是远高于计算机类讲师的。一般企业中管理者、经理的薪资都要高于普通员工、实习生的薪资,分析结果符合职场形势。

3、从编程语言的热门度而言,根据我们采集到的这些数据中显示结果,Java还处于企业招聘最看重的一门语言,因为Java语言的功能强大,很多企业运营的软件项目都离不开Java相关的程序编写,而且继承了多年以来的Java在项目开发中的重要作用,这种大的趋势潮流不易被突破。其次,由分析结果可知,企业招聘中Python、SQL、C/C++、JavaScript的出场率也是非常高的。毕竟据官方统计,Python和JavaScript近年来热度不断上升,随着用途的不断增加,功能不断增强,根据ARIMA算法预测将来这两种语言热度还会呈上升趋势。而SQL、C/C++则是非常经典、稳定的语言,在很多开发项目中具有不可替代的作用,因此公司招聘对其非常重视。

4、大部分企业都会拿“五险”、“ 一金”、“ 年终奖金”等福利待遇来吸引求职者,而这些福利恰好也是大部分求职者渴望得到的。总而言之,我们团队通过自己采集国内计算机相关招聘信息,并对这些数据并进行一系列分析,从各方面把我国当前计算机行业就业情况做了一定的了解和汇报,而得到的结果总体而言符合实际,基本与官方权威统计一致。虽然我们进行数据分析的方案和做法还存在很多不足,但这一过程中我们获益匪浅,进步了很多,我们仍会继续努力,力求统计更具规模性、多样性、及时性的数据,采用更加有效的分析方式,研究更高性能、更深层次的数据挖掘算法,这样才能总结、展示出更加真实、有效的分析成果。

附:640640

640640代码量太大,就不贴代码了。

推荐阅读(点击即可跳转阅读)

1. 

2. 

3. 

4. 

5. 

640?wx_fmt=png                      


http://chatgpt.dhexx.cn/article/MNmC2ugL.shtml

相关文章

Deep Learning Methods for Remote Heart Rate Measurement:A Review and Future Research Agenda

前言 本文为一片远程心率监测综述的总结复述,本文为作者第一篇试写博客,欢迎大家提出宝贵意见。 文章主要内容:1.简述了有关远程心率监测的基础知识与相关概念。2.讨论了基于深度学习的远程心率检测方法的几个最新进展,并根据模型…

论文解读:基于共享混合深度学习架构的DNA形状特征预测转录因子结合位点

Predicting transcription factor binding sites using DNA shape features based on shared hybrid deep learning architecture 数据:https://github.com/wangguoguoa/CRPTS 表S1: Tables S1 表S2:S2 表S3:Table S3 目录 1 文章概述…

一文简单理解“推荐系统”原理及架构

本文主要介绍什么是推荐系统,为什么需要推荐系统,如何实现推荐系统的方案,包括实现推荐系统的一些常见模型,希望给读者提供学习实践参考。 为什么需要推荐系统 对于信息消费者,需要从大量信息中找到自己感兴趣的信息&a…

拉普拉斯, 高斯, 高尔顿, 皮尔逊, 戈塞特, 费歇尔对统计学的发展贡献

由于人类的统计实践是随着计数活动而产生的,因此,统计发展史可以追溯到远古的原始社会,也就是说距今足有五千多年的漫长岁月。但是,能使人类的统计实践 上升到理论上予以概括总结的程度,即开始成为一门系统的学科统计学…

css过渡 取消过渡_如何过渡到微服务架构

css过渡 取消过渡 获取完整的书 微服务和容器 建议零售价$ 39.99 看见 本文摘录自Parminder Singh Kocher撰写的Pearson Addison-Wesley的著作《微服务和容器》。 经皮尔逊(Pearson)许可在此处转载©2018。 有关更多信息,请访问notifyit…

从编解码、传输到基础架构 详解Bigo多媒体技术栈

本文来自Bigo多媒体技术团队的投稿,详细介绍了Bigo多媒体技术的前生今世,通过何种技术手段支撑起了BigoLive、Likee和imo三大业务。技术栈具体涉及编解码、传输、全球基础设施架构等三方面。如果你也有独到的经验与思考,欢迎通过contributeli…

推荐系统lambda架构学习笔记之推荐系统(一)

推荐系统 个性化推荐(推荐系统)经历了多年的发展,已经成为互联网产品的标配,也是AI成功落地的分支之一,在电商(淘宝/京东)、资讯(今日头条/微博)、音乐(网易云音乐/QQ音乐)、短视频(抖音/快手)等热门应用中,推荐系统都是核心组件之一。 推荐…

极客星球 | 联邦学习与产品化之路

一、 背景——联邦学习与fate简介 1、联邦学习 联邦学习(Federated Learning)是一种新兴的人工智能基础技术,由谷歌最先提出于2016年,原用于解决安卓手机终端用户在本地更新模型的问题。其设计目标是在保障大数据交换时的信息安…

云效故障定位论文被ICSE2021 SEIP track收录

近期,由阿里云云效团队联合复旦大学CodeWisdom研究团队、阿里技术风险部安全生产团队,合作完成的论文《MicroHECL: High-Efficient Root Cause Localization in Large-Scale Microservice Systems》被ICSE 2021 SEIP track录用。本文针对大规模微服务系统…

简历项目-

文章目录 项目一:电商广告推荐系统一、数据集项目实现分析二、根据用户行为数据创建ALS模型并召回商品用户行为数据拆分(pv,fav,cart,buy)预处理behavior_log数据集根据用户对类目偏好打分训练ALS模型根据用户对品牌偏好打分训练ALS模型 三. …

【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

文章目录 1.架构1.1 大数据框架:lambda 架构的1.2.基本概念 2. 推荐模型构建流程2.1 数据2.1.1 数据来源2.1.2 数据清洗、处理 2.2 特征工程2.3 算法(机器学习) 来源 1.架构 推荐算法架构 召回 协同过滤基于内容的基于隐语义的 排序 召回决定…

个性化推荐系统

一、系统架构 1、大数据Lambda架构 (1)Lambda系统架构提供了一个结合实时数据和Hadoop预先计算的数据环境和混合平台, 提供一个实时的数据视图 (2)分层架构 ----- 批处理层 a.数据不可变,可进行任何计算&#xff0c…

【推荐架构day1】推荐系统的基本原理及架构:信息与人的供需匹配

按:本文来自陈彩华的精分享,从WHY、What到How系统性地介绍一下推荐系统的基本原理。 为什么需要推荐系统 对于信息消费者,需要从大量信息中找到自己感兴趣的信息,而在信息过载时代,用户难以从大量信息中获取自己感兴趣…

CoAP学习笔记——CoAP资源发现

【 原文链接】 (2015年4月15日,ct表述错误,待修改) 更多CoAP文章请参考博文索引——【物联网学习笔记——索引博文】 CoAP协议专门为M2M通信设计(设备间通信),在设备通信过程中很少会有人的干预…

一个用来学习CoAP协议的小例子

1 CoAP简介 CoAP 是受限制应用协议的简称,是物联网应用层协议之一。物联网应用层协议主要还有HTTP和MQTT,这三种协议有各自不同的应用场景。其中HTTP和MQTT使用TCP作为传输层协议,而CoAP使用UDP作为传输层协议,如下图&#xff1a…

CoAP学习笔记(1)CoAP报文结构

CoAP报文结构 CoAP基于UDP的应用层协议,报文结构如下 Ver 版本号占2bit,固定为01T 报文类型,占2bit,CoAP中有4种报文类型,如下 类型描述T值CON报文Confirmable,需要被确认的报文T00NON报文Non-Confirma…

coap协议学习之搭建coap测试环境

本篇目标:简单初步认识coap,以及怎么去测试自己搭建的coap协议应用。 材料准备: 谷歌浏览器/火狐浏览器(55.0)与 copper插件linux系统(搭建在虚拟机下的 Ubantu)与 libcoap开源程序 COAP插件的…

【协议】MQTT、CoAP、HTTP比较,MQTT协议优缺点

目录 MQTT、CoAP、HTTP区别 1. 协议栈: 2. 请求方式 3. 通讯消息格式: 4. 使用特点与使用场景 5.客户端平台差异 6.防火墙容错 MQTT、CoAP、HTTP介绍 CoAP协议 简介 CoAP与MQTT的区别: HTTP协议 简介 HTTP与CoAP的区别 MQTT协…

libcoap 接口分析与 CoAP 协议开发

libcoap 作为一个重要的 CoAP 开源实现,完整实现了 RFC 7252。很多优秀的 IoT 产品都用到了 libcoap,libcoap 为资源受限的设备(例如计算能力,射频范围,内存,带宽或网络数据包大小)实施轻量级应…

CoAP协议接入

CoAP协议规范 本小节介绍物联网平台支持的CoAP协议规范。 协议版本 支持RFC 7252 Constrained Application Protocol协议,更多信息,请参见RFC 7252。 通道安全 使用DTLS v1.2保证通道安全,更多信息,请参见DTLS v1.2。 开源客…