拉勾网爬虫

article/2025/7/11 7:12:59

源代码:https://github.com/carlblocking/xxw-for-public/tree/master/LaGouSpider

前几天写了一个知乎网的爬虫并爬取了一些数据,然而新鲜感消失的很快。于是,大概2天前开始试着爬取拉勾网上的数据。

在解析数据的过程中,知乎爬虫主要通过正则表达式来解析网页,而这次则通过jsoup来解析。在运行的过程中,能明显感受到二者的区别。

首先是使用正则表达式:优点:代码简洁。缺点:正则表达式较为复杂,初学者理解有难度。

其次是使用jsoup解析网页:优点:代码简洁,上手容易,而且运行速度一流,程序效率有了大幅度的提升。

/**该代码用于存储职位详情链接*/

public static List<String> getUserUrl(String string){
List<String> userUrls=new ArrayList<String>();
try {
Document document=Jsoup.connect(string).get();
Elements hrefs=document.getElementsByClass("position_link");
for(Element element:hrefs){
userUrls.add(element.attr("href").replace("//", ""));
}
return userUrls;
} catch (IOException e) {
// TODO: handle exception
e.printStackTrace();
return null;
}
}

/**该代码主要用于解析网页*/

Document document=Jsoup.connect(url).get();
Element element=document.select("meta[name]").get(2);

/*获得含有工作名称、公司名称的字符串,之后可以进行进一步的解析*/
String content=element.attr("content");
jobName=getJobName(content);
jobCompany=getJobComapany(content);

/*获得工资字符串*/
salary=document.getElementsByTag("span").get(3).text();
/*获得最大、最小字符串*/
String[] salarys=salary.split("[-]");
try {
minSalary=salarys[0];
maxSalary=salarys[1];
} catch (ArrayIndexOutOfBoundsException e) {
minSalary=null;
maxSalary=null;
}
/*获得公司地址*/
jobAddress=document.getElementsByTag("span").get(4).text();

/*获得工作经验*/
experience=document.getElementsByTag("span").get(5).text();

/*获得学历要求*/
education=document.getElementsByTag("span").get(6).text();

/*查找领域、融资情况*/
Elements results=document.select(".c_feature").select("li");

/*领域*/
industry=results.get(0).text().replace("领域 ", "");

/*融资*/
growth=results.get(3).text().replace("目前阶段 ", "");




http://chatgpt.dhexx.cn/article/Jtlse7md.shtml

相关文章

爬虫实战(三) 用Python爬取拉勾网

0、前言 最近博主面临着选方向的困难&#xff08;唉&#xff0c;选择困难症患者 &#xff1e;﹏&#xff1c;&#xff09;&#xff0c;所以希望了解一下目前不同岗位的就业前景 这时&#xff0c;就不妨写个小爬虫&#xff0c;爬取一下 拉勾网 的职位数据&#xff0c;并用图形…

python爬取拉勾网公司信息(您操作太频繁,请稍后访问)

最近爬取拉勾网上的公司信息碰到了很多问题&#xff0c;但是都一一解决了。作为一个招聘网站&#xff0c;他的反爬措施做的还是很好的。 为了调查招聘网站上有多少公司&#xff0c;以及公司信息&#xff0c;并把公司信息存入MongoDB数据库中。 先上运行成功代码&#xff1a; …

2022年爬取拉勾网详情页面地址信息

众所周知&#xff0c;拉勾网的反爬机制一直做的很好&#xff0c;前些年还可以通过找到网页源代码找到岗位详情页面的地址&#xff0c;而现在拉勾网的详情页面地址直接没了&#xff0c;这就很奇怪&#xff0c;那么鼠标点击他又是如何跳转到别的页面 点开源代码中&#xff0c;每一…

django+拉勾网招聘数据可视化

django拉勾网招聘数据可视化&#xff0c;此系统有详细的录屏&#xff0c;下面只是部门截图&#xff0c;需要看完整录屏联系博主 系统开发语言python&#xff0c;框架为django&#xff0c;数据库mysql&#xff0c;分为爬虫和可视化分析

Python爬虫实战:爬取拉勾网并对其进行数据分析

###整体的 思路 是采用 selenium 模拟浏览器的行为&#xff0c;具体的步骤如下&#xff1a; 初始化爬取数据&#xff0c;这里分为两个部分&#xff1a;一是爬取网页数据&#xff0c;二是进行翻页操作保存数据&#xff0c;将数据保存到文件中数据可视化 ###整体的 代码结构 如…

什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(二)

文章目录 前言一、准备我们的库二、数据清洗三、核密度图及词云制作四、完整代码五、扩展 上一篇&#xff1a;什么你还不知道招聘信息&#xff0c;小唐来教你——最新2021爬取拉勾网招聘信息&#xff08;一&#xff09; 下一篇&#xff1a;没有拉&#xff01; 前言 既然我们上…

No.4 拉勾网职位搜索信息爬取

一、简介 网址&#xff1a;https://www.lagou.com/jobs/list_/p-city_0?&clfalse&fromSearchtrue&labelWords&suginput 效果&#xff1a;信息 使用框架&#xff1a;requests 难度系数&#xff1a;✩✩✩ 二、教程 今天我们要为我们的工作写爬虫&#xf…

什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(一)

文章目录 前言一、准备我们的库二、分析分析三、 代码四、数据展示小唐的心路历程 上一篇&#xff1a;没有啦&#xff01; 下一篇&#xff1a;什么你还不知道招聘信息&#xff0c;小唐来教你——最新2021爬取拉勾网招聘信息&#xff08;二&#xff09; 前言 有是小唐的数据分析…

拉勾网的反爬介绍和解决方法(更新时间:2019/2/20)

拉勾网的反爬介绍和解决方法&#xff08;更新时间&#xff1a;2019/2/20&#xff09; 目录直达&#xff1a; 文章目录 拉勾网的反爬介绍和解决方法&#xff08;更新时间&#xff1a;2019/2/20&#xff09;1. 前言2. 简述3. 反爬介绍3.1、对于职位的详情页和公司的详情页的反爬…

应对反爬如何爬取拉勾网信息(非常详细)

目录 前期准备请求头Cookies问题手动提取Cookies和自动Cookies相结合自动提取Cookies实现 手动提取Cookies实现 页面分析代码实现 前期准备 我们知道百度其实就是一个爬虫&#xff0c;但是对方的服务器是没有对百度进行反爬的&#xff0c;所以为了防止对方服务器的反爬&#x…

【Python】模拟登陆并抓取拉勾网信息(selenium+phantomjs)

环境 python3.5pip install seleniumphantomjs-2.1.1pip install pyquery 代码 # -*- coding:utf-8 -*-# 防止print中文出错 import time import sys import io sys.stdout io.TextIOWrapper(sys.stdout.buffer, encodinggb18030)from pyquery import PyQuery as pq from se…

Python爬虫实战,requests模块,Python实现拉勾网求职信息数据分析与可视化

前言 利用requests爬取拉勾网求职信息数据分析与可视化&#xff0c;废话不多说。 让我们愉快地开始吧~ 开发工具 **Python版本&#xff1a;**3.6.4 相关模块&#xff1a; requests模块&#xff1b; re模块&#xff1b; os模块 jieba模块&#xff1b; pandas模块 num…

爬虫学习之17:爬取拉勾网网招聘信息(异步加载+Cookie模拟登陆)

很多网站需要通过提交表单来进行登陆或相应的操作&#xff0c;可以用requests库的POST方法&#xff0c;通过观测表单源代码和逆向工程来填写表单获取网页信息。本代码以获取拉勾网Python相关招聘职位为例作为练习。打开拉钩网&#xff0c;F12进入浏览器开发者工具&#xff0c;可…

python成功爬取拉勾网——初识反爬(一个小白真实的爬取路程,内容有点小多)

python成功爬取拉勾网&#xff08;一个小白的心里路程&#xff09; 最开始想爬取拉钩是因为半年前上python实验课的时候&#xff0c;老师给了两个任务&#xff0c;一个时爬取糗百的笑话内容&#xff0c;另一个时爬取拉勾网的职位信息&#xff0c;当时因为课时紧张的缘故&#…

爬虫实例二:爬取拉勾网招聘信息

爬虫实例二&#xff1a;爬取拉勾网招聘信息 如果是第一次看本教程的同学&#xff0c;可以先从一开始&#xff1a; 爬虫实例一&#xff1a;爬取豆瓣影评 欢迎关注微信公众号&#xff1a;极简XksA 微信账号&#xff1a;xksnh888 转载请先联系微信号&#xff1a;zs820553471 …

python爬虫之爬取拉勾网

这次要爬取拉勾网&#xff0c;拉勾网的反爬做的还是很不错的啊&#xff0c;因为目标网站是Ajax交互的我一开始是直接分析json接口来爬取的&#xff0c;但是真的很麻烦&#xff0c;请求头一旦出点问题就给识别出来了后续我就改了一下方法用selenium来模拟浏览器去获取 招聘求职…

爬虫练习六:爬取拉勾招聘信息

1. 明确需求 1. 初学爬虫时&#xff0c;看着各路大佬以拉勾网为案例进行爬虫讲解&#xff0c;自己也这样尝试。结果因为个人水平实在太低&#xff0c;很快就触发反爬虫机制&#xff0c;甚至连个人的账号都被封禁。所以这次想要重新挑战一下&#xff0c;爬取拉勾展示的招聘数据。…

用接口登录拉勾网

前段时间一直忙于公司项目的测试工作导致一周多没有撸代码&#xff0c;所以今天通过悠悠是博客学习了一下如何让用接口登录拉勾网 下面介绍一下吧&#xff01;分享下经验以及心得&#xff0c;&#xff0c;虽然我知道也没什么人会看&#xff01; 首先呢要先登录拉钩网的网站&am…

拉勾网登录问题

拉钩登录问题&#xff0c;在参考别人的博客后&#xff0c;解决啦 class lagouSpider(CrawlSpider):name lagouallowed_domains [www.lagou.com]start_urls [https://www.lagou.com/]agent "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/" \"537.36 (…

selenium实例登陆拉勾网 外加手动验证验证码

selenium模拟登陆拉钩网 from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import os, json, time from urllib import parse from lxml import etree from fake_…