实习僧[shixiseng.com]爬虫实战笔记

article/2025/10/6 21:25:02

免责声明:本文所记录的技术手段及实现过程,仅作为爬虫技术学习使用,不对任何人完全或部分地依据本文的全部或部分内容从事的任何事情和因其任何作为或不作为造成的后果承担任何责任。

爬取需求:从网站【www.shixiseng.com】上,任意查询条件下,爬取前5页工作岗位的企业名称、工作岗位、薪资水平、工作地点等信息;

爬取工具:chrome浏览器、pycharm

Python库:requests、BeautifulSoup

01

网站结构分析

通过输入url【www.shixiseng.com】,打开实习僧网站,点击【搜索】按钮打开查询结果页面

通过翻页按钮找到每页对应的url链接信息:

https://www.shixiseng.com/interns?page=1&type=intern&keyword=&area=&months=&days=&degree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%85%A8%E5%9B%BD&internExtend=

https://www.shixiseng.com/interns?page=2&type=intern&keyword=&area=&months=&days=&degree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%85%A8%E5%9B%BD&internExtend=

https://www.shixiseng.com/interns?page=3&type=intern&keyword=&area=&months=&days=&degree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%85%A8%E5%9B%BD&internExtend=

需要爬取的字段需要点击岗位标题的超链接,在打开新的页面中才能找到,因此,我们需要先爬取所有岗位详情对应的url。在chrome浏览器中,在岗位标题上右键,点击【检查】,在打开的页面中定位需要获取url的html定位信息。

在chrome工具分析html文件,找到获取岗位详情的关键定位信息。

综上所述,先通过当前请求页面打开岗位列表,通过爬取列表的岗位信息,拿到岗位的详情url,再通过详情的url爬取需要的相关字段。

02

爬取详情页URL

根据上面分析的网站结构,开始创建python工程并编写代码:

岗位列表html解析定位信息:'.intern-wrap.intern-item'

岗位详情url解析定位信息:.f-l.intern-detail__job a

运行代码,结果如下:

爬取岗位信息详情url成功!

03

爬取详情页公司

继续编写代码,打开详情页的url,在打开的详情页提取公司信息

分析详情页,公司信息的html定位信息为:.com_intro .com-name 

继续编写解析代码:

运行代码:

发现获取的公司信息存在空格和空行,将空格和空行去掉:

再次运行代码:

爬取公司信息成功!

04

爬取详情页岗位

分析详情页,岗位信息的关键定位信息为:.new_job_name span

编写代码,提取岗位信息

运行代码,结果如下:

爬取岗位信息成功!

05

爬取详情页工资范围

分析详情页,工资范围的关键提取信息为:.job_money.cutom_font

编写代码提取工资范围信息:

运行结果为:

工资范围信息爬取成功,但是显示是乱码,应该是网站防止关键信息被爬取,对工资范围信息的数据进行了加密处理。最简单的解码方式就是重新进行utf8编码,分别建立utf8编码和数字0~9的对应关系,爬取信息后根据0~9的对应关系批量替换,实现数字的展示。

先随便复制一份工资信息,看看编码后是什么内容:

通过中间的符号”-”、”/”对比来看,得出如下关系:

300 = \xee\xa3\xb2\xef\xa2\x9e\xef\xa2\x9e

400 = \xef\x8b\x8a\xef\xa2\x9e\xef\xa2\x9e

天 = \xe5\xa4\xa9

不难看出,3段”\”包含的内容为1个字符,所以得出如下结论:

0 = \xef\xa2\x9e

3 = \xee\xa3\xb2

4 = \xef\x8b\x8a

继续在页面复制不同的数字和单位进行打印,找出可能出现的所有对应关系,本文不再演示。

编码将上述推断出来的映射关系进行转换:

运行结果如下:

因为没有全部进行映射,所以还存在乱码,工资范围信息爬取成功!

06

爬取详情页工作地点

分析详情页,工作地点的提取关键信息为:.com_position

编写代码进行提取:

运行代码结果如下:

工作地点信息爬取成功!

所有需要爬取的信息都已经成功爬取,爬虫编码完成!

所有示例代码均可通过微信公众号回复关键字【pachong23】下载!


http://chatgpt.dhexx.cn/article/wrYFfkOc.shtml

相关文章

xshell如何使用

1.首先下载xshell,并安装 下载地址:https://xshell.en.softonic.com/

Xshell官网免费版

官网可以免费申请,不收费,只需一个邮箱即可 xshell官网:https://www.xshell.com/zh/xshell/ 点击下载 点击免费授权页面 填写姓名邮箱,点击下载 邮箱会收到下载链接,点击跳转下载即可

Qt多线程之继承QObject(moveToThread方式)

Qt多线程有两两种方式,第一种继承QThread,复写run()函数,但是run()和main()类似,run()函数才是子线程的入口函数,所以在设计到类的操作时,必须把对象或者指针放在run函数里面,否则就不在一个线程里面了&…

xshell官网最新 中文,xshell

Xshell 是国内比较流行的SSH管理软件,和其他的SSH客户端相比,Xshell更加注重用户体验的一些东西,比如其现代化的界面,多种语言包括简体中文支持,代码高亮等,对于新手非常友好。 Xshell中还提供了一些高级功…

Linux、Xshell

Linux基础命令 linux基础操作1. 创建目录2. 创建文件3. 删除4. 删除前询问5. 复制6. 修改文件名7. 移动文件8. 查看文件9. 查看五行10. 查看文件末尾11. 查看文件后五行12. 动态查看文件(相当于日志)13. 查看文件内容14. 查看输过的命令15. 清除页面16. …

Linux,Xshell

一.部署Linux环境 首先安装VMware和ISO镜像文件。 然后在windows会产生两个虚拟网卡:vmnet1, vmnet8。 登录VM密钥可以自己想办法的。 1.创建虚拟机,直接点击主页创建就OK。 2.选择自定义,点击下一步 3.兼容性选择默认即可点击…

xshell是什么软件

xshell是什么软件? Xshell 是一个强大的远程管理软件,它支持SSH,TELNET 协议。Xshell可以在Windows下访问远端服务器、路由器、网络机顶盒等,类似的常用软件还有putty,以及Windows下的Telnet。 下面简单介绍一下xshell软件。 X…

xshell工具

xshell工具 xshell 是一款非常好用的Linux客户端连接工具,但是是收费的,我们可以使用它的家庭和学校用户的免费许可证 。但是需要我们去官网注册。 https://www.netsarang.com/zh/xshell-download/ 获取到对应的安装软件直接安装即可 xshell的配置 安…

安卓一键清理内存_力推!一键深度清理手机内存垃圾,从此和卡顿告别

今天给大家推荐的这款软件是猎豹清理大师v7.2.9去广告高级版。 该软件可以说是比较专业的垃圾清理软件了,在Google Play已经被下载超过了10亿次。 软件体验 会员功能全部免费使用,这个是不需要进行付费的版本,会员拥有去广告、自动垃圾清理、…

win10深度清理c盘垃圾的方法【系统天地】

C盘作为win10系统安装盘,使用一段时间后会产生大量的垃圾文件,不仅占用内存还会影响电脑运行速度。很多新手不知道c盘哪里文件是可以删除的。带着win10如何深度清理c盘的问题,我们往下看看爱纯净的方法。 win10纯净版深度清理c盘垃圾的方法…

苹果手机如何深度清理_苹果手机还可以这样清理垃圾,怪不得用这么久还流畅如丝...

苹果手机凭借着它优异的功能受到大家的喜欢,独特的IOS系统让它用多久都会觉得非常的流畅,虽然说苹果手机的功能很受大家的青睐,但是苹果手机有一个缺陷,那就是内存不怎么够用,今天教大家如何去清理苹果手机的内存给手机…

微信内测新功能(深度清理),瞬间释放几个G内存!

点击上方关注 “终端研发部” 设为“星标”,和你一起掌握更多数据库知识 微信是国人日常生活离不开的软件,而微信堪称吃存储的大户。我们几乎每天都在使用微信,使用的时间越长,信息积累的也越多。 聊天记录和朋友圈中的图片、视频…

App Cleaner Uninstaller for Mac v8.1.2 应用深度清理卸载工具 兼容 M1

App Cleaner & Uninstaller Pro 是一款mac应用清理、mac应用卸载工具,它可以帮你深度清理应用残留,完全卸载mac应用程序。 应用介绍 App Cleaner & Uninstaller Pro 是一款mac应用清理、mac应用卸载工具,它可以帮你深度清理应用残留…

苹果手机如何深度清理_安卓手机必备清理软件APP,完全免费超级深度清理

大家好欢迎观看软件兔 大家都知道安卓手机本身的一些小问题,手机在运行的过程中会产生很多垃圾文件,图片、视频、音频还有广告图片,你手机用个一年就非常卡了,那是因为你手机里面的垃圾越来越多了,垃圾多了你手机就越来…

苹果手机如何深度清理_手机应用 | 推荐5款深度清理手机内存的软件

点击上方蓝色字 关注我吧 ✎ 前言 手机内存越来越大,软件也越来越多,随之而来的影响就是手机里面的文件垃圾越来越多,短期里也许不会产生什么影响,但是长期下来手机就会变的卡顿,所以这次就来推荐5款安卓手机内存清理的手机软件。我会从颜值、实用性两个方面进行打分分析,…

cleanmymac是怎么进行Mac的深度清理的

2019独角兽企业重金招聘Python工程师标准>>> mac电脑深度清理软件中说得上好的当属mac清理系统垃圾cleanmymac了,可以清理垃圾、清理插件、释放内存等等,真正做到电脑深度清理。 免费下载地址:http://wm.makeding.com/iclk/?zone…

计算机命令清除所有,电脑深度清理命令设置方法

今天windows7之家小编要为网友们带来大福利,教大家电脑深度清理命令设置方法,帮助网友们快速有效的清理垃圾。相信网友们都迫不及待的想要学习电脑深度清理命令设置方法了吧。那就不要犹豫,一起跟着小编往下看电脑深度清理命令设置方法吧。 新…

深度清理电脑垃圾软件 如何深度清理电脑垃圾

怎么样清理电脑室每个使用者都应该知道的,包括mac用户,因为在使用过程中,会产生大量的缓存文件、系统日志、索引文件等,如果我们不定时清理就会堆积在那里。为了使电脑更加干净,非常好的方法就是使用电脑深度清理软件。…

深度清理mac磁盘空间的方法,方方面面都清理干净

对于Mac用户,特别是买了丐版的用户来说,清理磁盘往往是一件比较头疼的事情。因为随着Mac上安装越来越多的应用程序,它们肯定会占用你磁盘中的大量空间。而且这些应用程序还会生成缓存、系统日志文件、更新文件等,Mac会因此开始运行…

Windows 10怎样不利用第三方付费软件实现对C盘的深度清理

时间来到了公元2022年,现在以前很多免费的软件都要成为会员才能使用很多功能了。 比如我现在想对我的C盘进行一个深度清理,试了两款软件,分别是驱动精灵和Wise Care,都需要付费成为会员才能解锁相关功能,截图如下。 …