什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(二)

article/2025/7/11 7:36:26

文章目录

  • 前言
  • 一、准备我们的库
  • 二、数据清洗
  • 三、核密度图及词云制作
  • 四、完整代码
  • 五、扩展

上一篇:什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(一)
下一篇:没有拉!


前言

既然我们上面已经爬取到我们的数据了,这下怎么说都要对他经行一个数据分析和词云制作了吧,在这里小唐主要是就他的数据清洗和词云制作来说一下

一、准备我们的库

import pandas as pd
import re
import seaborn as sns
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import cv2
#这里是为了让我们的中文可以显示出来
font = r'C:\Windows\Fonts\simfang.ttf'
plt.rcParams['font.sans-serif'] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False

二、数据清洗

由于我们工资都是给定一个范围,所以说,我们要对他求一个平均值,在这里我们用正则表达式来识别

def ciyun():df = pd.read_excel('工程师.xls')#这个就是我们要分析的表for i in range(df.shape[0]):gz = df.loc[i, '工资']#选择工资那一列if re.search(r'.*k-.*k', gz):a = eval(re.search('(.*)k-(.*)k', gz).group(1)) * 1000b = eval(re.search('(.*)k-(.*)k', gz).group(2)) * 1000num = (a + b) / 2#求平均值try:df.loc[i, '工资'] = int(num)/1000except:print("跳过")df.loc[i, '工资'] =0visualization(df)#将我们洗好的数据传到我们下一个制作图表里面

三、核密度图及词云制作

def visualization(df):salarys=df['工资']for i in salarys:print(i)mean = round(salarys.mean(), 1)#求我们的平均值plt.figure(figsize=(8, 6), dpi=200)#确定下来我们的行列数sns.distplot(salarys, hist=True, kde=True, kde_kws={"color": "r", "linewidth": 1.5, 'linestyle': '-'})#画核密度图plt.axvline(mean, color='r', linestyle=":")#在中间值那里画一条红线plt.text(mean, 0.05, '平均月薪: %.1f千' % (mean), color='k', horizontalalignment='center', fontsize=15)#在红线中间输出中间值是多少plt.xlim(0, 35)plt.xlabel('月薪(单位:千)')plt.title('工程师行业的薪资分布')plt.show()a = df['需求']#这里可以更改,可以显示地区呀,需求呀的词云text = []n = 0#统计词频for i in a:text.append(i)n += 1text = ",".join(str(i) for i in text)mask = cv2.imread(r'D:\data\timg.jpg')#这个是我们的要他形成的一个形状,没有的话可以删掉这一行,记得后面的mask也要删掉喔wordcloud = WordCloud(font_path=font, background_color="white", mask=mask).generate(text)plt.imshow(wordcloud, interpolation='bilinear')plt.axis('off')plt.show()

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

四、完整代码

import pandas as pd
import re
import seaborn as sns
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import cv2
font = r'C:\Windows\Fonts\simfang.ttf'
plt.rcParams['font.sans-serif'] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False
def ciyun():df = pd.read_excel('工程师.xls')for i in range(df.shape[0]):gz = df.loc[i, '工资']if re.search(r'.*k-.*k', gz):a = eval(re.search('(.*)k-(.*)k', gz).group(1)) * 1000b = eval(re.search('(.*)k-(.*)k', gz).group(2)) * 1000num = (a + b) / 2try:df.loc[i, '工资'] = int(num)/1000except:print("跳过")df.loc[i, '工资'] =0visualization(df)
def visualization(df):salarys=df['工资']for i in salarys:print(i)mean = round(salarys.mean(), 1)plt.figure(figsize=(8, 6), dpi=200)sns.distplot(salarys, hist=True, kde=True, kde_kws={"color": "r", "linewidth": 1.5, 'linestyle': '-'})plt.axvline(mean, color='r', linestyle=":")plt.text(mean, 0.05, '平均月薪: %.1f千' % (mean), color='k', horizontalalignment='center', fontsize=15)plt.xlim(0, 35)plt.xlabel('月薪(单位:千)')plt.title('工程师行业的薪资分布')plt.show()a = df['需求']text = []n = 0for i in a:text.append(i)n += 1text = ",".join(str(i) for i in text)wordcloud = WordCloud(font_path=font, background_color="white").generate(text)plt.imshow(wordcloud, interpolation='bilinear')plt.axis('off')plt.show()ciyun()

五、扩展

什么!居然还可以扩展!咱就是说小唐去做了一个界面,有需要的可以直接私信小唐,然后发你源码喔!

震惊,某高校男子考前考打代码复习四六级 网络爬虫真好玩


http://chatgpt.dhexx.cn/article/OZRMMCbW.shtml

相关文章

No.4 拉勾网职位搜索信息爬取

一、简介 网址:https://www.lagou.com/jobs/list_/p-city_0?&clfalse&fromSearchtrue&labelWords&suginput 效果:信息 使用框架:requests 难度系数:✩✩✩ 二、教程 今天我们要为我们的工作写爬虫&#xf…

什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(一)

文章目录 前言一、准备我们的库二、分析分析三、 代码四、数据展示小唐的心路历程 上一篇:没有啦! 下一篇:什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(二) 前言 有是小唐的数据分析…

拉勾网的反爬介绍和解决方法(更新时间:2019/2/20)

拉勾网的反爬介绍和解决方法(更新时间:2019/2/20) 目录直达: 文章目录 拉勾网的反爬介绍和解决方法(更新时间:2019/2/20)1. 前言2. 简述3. 反爬介绍3.1、对于职位的详情页和公司的详情页的反爬…

应对反爬如何爬取拉勾网信息(非常详细)

目录 前期准备请求头Cookies问题手动提取Cookies和自动Cookies相结合自动提取Cookies实现 手动提取Cookies实现 页面分析代码实现 前期准备 我们知道百度其实就是一个爬虫,但是对方的服务器是没有对百度进行反爬的,所以为了防止对方服务器的反爬&#x…

【Python】模拟登陆并抓取拉勾网信息(selenium+phantomjs)

环境 python3.5pip install seleniumphantomjs-2.1.1pip install pyquery 代码 # -*- coding:utf-8 -*-# 防止print中文出错 import time import sys import io sys.stdout io.TextIOWrapper(sys.stdout.buffer, encodinggb18030)from pyquery import PyQuery as pq from se…

Python爬虫实战,requests模块,Python实现拉勾网求职信息数据分析与可视化

前言 利用requests爬取拉勾网求职信息数据分析与可视化,废话不多说。 让我们愉快地开始吧~ 开发工具 **Python版本:**3.6.4 相关模块: requests模块; re模块; os模块 jieba模块; pandas模块 num…

爬虫学习之17:爬取拉勾网网招聘信息(异步加载+Cookie模拟登陆)

很多网站需要通过提交表单来进行登陆或相应的操作,可以用requests库的POST方法,通过观测表单源代码和逆向工程来填写表单获取网页信息。本代码以获取拉勾网Python相关招聘职位为例作为练习。打开拉钩网,F12进入浏览器开发者工具,可…

python成功爬取拉勾网——初识反爬(一个小白真实的爬取路程,内容有点小多)

python成功爬取拉勾网(一个小白的心里路程) 最开始想爬取拉钩是因为半年前上python实验课的时候,老师给了两个任务,一个时爬取糗百的笑话内容,另一个时爬取拉勾网的职位信息,当时因为课时紧张的缘故&#…

爬虫实例二:爬取拉勾网招聘信息

爬虫实例二:爬取拉勾网招聘信息 如果是第一次看本教程的同学,可以先从一开始: 爬虫实例一:爬取豆瓣影评 欢迎关注微信公众号:极简XksA 微信账号:xksnh888 转载请先联系微信号:zs820553471 …

python爬虫之爬取拉勾网

这次要爬取拉勾网,拉勾网的反爬做的还是很不错的啊,因为目标网站是Ajax交互的我一开始是直接分析json接口来爬取的,但是真的很麻烦,请求头一旦出点问题就给识别出来了后续我就改了一下方法用selenium来模拟浏览器去获取 招聘求职…

爬虫练习六:爬取拉勾招聘信息

1. 明确需求 1. 初学爬虫时,看着各路大佬以拉勾网为案例进行爬虫讲解,自己也这样尝试。结果因为个人水平实在太低,很快就触发反爬虫机制,甚至连个人的账号都被封禁。所以这次想要重新挑战一下,爬取拉勾展示的招聘数据。…

用接口登录拉勾网

前段时间一直忙于公司项目的测试工作导致一周多没有撸代码,所以今天通过悠悠是博客学习了一下如何让用接口登录拉勾网 下面介绍一下吧!分享下经验以及心得,,虽然我知道也没什么人会看! 首先呢要先登录拉钩网的网站&am…

拉勾网登录问题

拉钩登录问题,在参考别人的博客后,解决啦 class lagouSpider(CrawlSpider):name lagouallowed_domains [www.lagou.com]start_urls [https://www.lagou.com/]agent "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/" \"537.36 (…

selenium实例登陆拉勾网 外加手动验证验证码

selenium模拟登陆拉钩网 from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import os, json, time from urllib import parse from lxml import etree from fake_…

python -- 拉勾网爬虫模拟登录

入门爬虫一段时间,最近在做一个拉勾网的数据爬虫分析,项目也快接近尾声了,于是抽个时间写一下这个项目中遇到的一些问题。 目前拉勾网的反爬虫机制还是可以的,一开始用scrapy shell 分析拉勾网,发现拉勾网要校验usera…

基于Python的拉勾网的模拟登录获取cookie

lagou_login 拉勾网的模拟登录获取cookie,为爬虫做准备, 喜欢的点个赞,谢谢 入门爬虫一段时间,最近在做一个拉勾网的数据爬虫分析,项目也快接近尾声了,于是抽个时间写一下这个项目中遇到的一些问题。 目前拉勾网的反…

selenium模拟登陆拉勾网

初学selenium,尝试了一下模拟登录拉勾网,感觉还挺好玩的 就剩下最后的验证码不会处理了。。。 思路就是在网页代码中找到对应的框的属性进行查询,然后点击、输入就进行了。 之后就会看到Chrome弹出来自动完成一系列动作,感觉很…

如何高效地学习编程语言?

学习编程语言是一种技巧:做好了,你会感受到掌握新事物之后的快感;做不好,就会接二连三的沮丧,甚至放弃。下面我将介绍一些技巧与方法,以便帮助大家高效地学习。 持续测试自己以抵抗胜任力错觉 最不济的学习…

完全零基础,到底该怎样学习编程?

学习编程的过程,大致如下: 看书、看博客、学课程或者看视频等 模仿着书上或者博客的代码,进行复现,复现不重要,思考才是关键 ⚠️ 思考学习别人思路后,脱离书本和博客,完全自己实现功能 自己…

学习编程先学什么?怎么学习编程?

怎么学习编程 随着IT行业的快速发展,现在越来越多的人看中IT行业的前景,很多的人选择IT行业。其中大部分人会选择了学习编程语言,那么,怎么学习编程语言、学习编程先学什么就是人们最常遇到的困难,因此,小编…