2022年爬取拉勾网详情页面地址信息

article/2025/7/11 7:54:38

 众所周知,拉勾网的反爬机制一直做的很好,前些年还可以通过找到网页源代码找到岗位详情页面的地址,而现在拉勾网的详情页面地址直接没了,这就很奇怪,那么鼠标点击他又是如何跳转到别的页面

点开源代码中,每一个职位都包含在<div class="item__10RTO">,但就是没有对应的地址信息,但我们点开每个岗位信息可以看到,地址中唯一有变化的就是html前面的数字。

所以现在的问题是找到前面的数字存在了什么地方,直接搜索:

点开第一个,这里有个key值为positionId,猜测可能所有岗位详情页面都有一个对应的positionId,只要找到每一个对应的id就可以自己构造url,访问到详情页面。

拉勾网把具体网页地址的id放在了网页源代码底下的script标签中,把他们复制出来,查看一下是是否是json数据:

果然是json形式的数据(如果直接在网页源代码中查看这部分数据,会发现到了最后面数据不全,json数据识别不出来,所以我是直接用让代码去拿去网页的数据,就可以看到全部的json数据)

测试代码如下:

import requests
from selenium import webdriver
import re
from lxml import etree
import jsonurl = "https://www.lagou.com/wn/jobs?pn=1&cl=false&fromSearch=true&kd=python"
url_temp = "https://www.lagou.com/wn/jobs/{}.html"
drivers = webdriver.Chrome()
drivers.get(url)
html_str = drivers.page_source
html = etree.HTML(html_str)
json_str = html.xpath("//script[@id='__NEXT_DATA__']/text()")[0]
json_dict = json.loads(json_str)
list = []
for i in range(15):  # 每次页面有15个岗位信息positionId = json_dict["props"]["pageProps"]["initData"]["content"]["positionResult"]["result"][i]["positionId"]print(url_temp.format(positionId))list.append(url_temp.format(positionId))
drivers.get(list[2])  # 测试一下构造的网页是否有效

最后测试了一下构造的网页是否有效,可以正常访问。

 证明可以成功访问到!


http://chatgpt.dhexx.cn/article/7rXhCHZk.shtml

相关文章

django+拉勾网招聘数据可视化

django拉勾网招聘数据可视化&#xff0c;此系统有详细的录屏&#xff0c;下面只是部门截图&#xff0c;需要看完整录屏联系博主 系统开发语言python&#xff0c;框架为django&#xff0c;数据库mysql&#xff0c;分为爬虫和可视化分析

Python爬虫实战:爬取拉勾网并对其进行数据分析

###整体的 思路 是采用 selenium 模拟浏览器的行为&#xff0c;具体的步骤如下&#xff1a; 初始化爬取数据&#xff0c;这里分为两个部分&#xff1a;一是爬取网页数据&#xff0c;二是进行翻页操作保存数据&#xff0c;将数据保存到文件中数据可视化 ###整体的 代码结构 如…

什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(二)

文章目录 前言一、准备我们的库二、数据清洗三、核密度图及词云制作四、完整代码五、扩展 上一篇&#xff1a;什么你还不知道招聘信息&#xff0c;小唐来教你——最新2021爬取拉勾网招聘信息&#xff08;一&#xff09; 下一篇&#xff1a;没有拉&#xff01; 前言 既然我们上…

No.4 拉勾网职位搜索信息爬取

一、简介 网址&#xff1a;https://www.lagou.com/jobs/list_/p-city_0?&clfalse&fromSearchtrue&labelWords&suginput 效果&#xff1a;信息 使用框架&#xff1a;requests 难度系数&#xff1a;✩✩✩ 二、教程 今天我们要为我们的工作写爬虫&#xf…

什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(一)

文章目录 前言一、准备我们的库二、分析分析三、 代码四、数据展示小唐的心路历程 上一篇&#xff1a;没有啦&#xff01; 下一篇&#xff1a;什么你还不知道招聘信息&#xff0c;小唐来教你——最新2021爬取拉勾网招聘信息&#xff08;二&#xff09; 前言 有是小唐的数据分析…

拉勾网的反爬介绍和解决方法(更新时间:2019/2/20)

拉勾网的反爬介绍和解决方法&#xff08;更新时间&#xff1a;2019/2/20&#xff09; 目录直达&#xff1a; 文章目录 拉勾网的反爬介绍和解决方法&#xff08;更新时间&#xff1a;2019/2/20&#xff09;1. 前言2. 简述3. 反爬介绍3.1、对于职位的详情页和公司的详情页的反爬…

应对反爬如何爬取拉勾网信息(非常详细)

目录 前期准备请求头Cookies问题手动提取Cookies和自动Cookies相结合自动提取Cookies实现 手动提取Cookies实现 页面分析代码实现 前期准备 我们知道百度其实就是一个爬虫&#xff0c;但是对方的服务器是没有对百度进行反爬的&#xff0c;所以为了防止对方服务器的反爬&#x…

【Python】模拟登陆并抓取拉勾网信息(selenium+phantomjs)

环境 python3.5pip install seleniumphantomjs-2.1.1pip install pyquery 代码 # -*- coding:utf-8 -*-# 防止print中文出错 import time import sys import io sys.stdout io.TextIOWrapper(sys.stdout.buffer, encodinggb18030)from pyquery import PyQuery as pq from se…

Python爬虫实战,requests模块,Python实现拉勾网求职信息数据分析与可视化

前言 利用requests爬取拉勾网求职信息数据分析与可视化&#xff0c;废话不多说。 让我们愉快地开始吧~ 开发工具 **Python版本&#xff1a;**3.6.4 相关模块&#xff1a; requests模块&#xff1b; re模块&#xff1b; os模块 jieba模块&#xff1b; pandas模块 num…

爬虫学习之17:爬取拉勾网网招聘信息(异步加载+Cookie模拟登陆)

很多网站需要通过提交表单来进行登陆或相应的操作&#xff0c;可以用requests库的POST方法&#xff0c;通过观测表单源代码和逆向工程来填写表单获取网页信息。本代码以获取拉勾网Python相关招聘职位为例作为练习。打开拉钩网&#xff0c;F12进入浏览器开发者工具&#xff0c;可…

python成功爬取拉勾网——初识反爬(一个小白真实的爬取路程,内容有点小多)

python成功爬取拉勾网&#xff08;一个小白的心里路程&#xff09; 最开始想爬取拉钩是因为半年前上python实验课的时候&#xff0c;老师给了两个任务&#xff0c;一个时爬取糗百的笑话内容&#xff0c;另一个时爬取拉勾网的职位信息&#xff0c;当时因为课时紧张的缘故&#…

爬虫实例二:爬取拉勾网招聘信息

爬虫实例二&#xff1a;爬取拉勾网招聘信息 如果是第一次看本教程的同学&#xff0c;可以先从一开始&#xff1a; 爬虫实例一&#xff1a;爬取豆瓣影评 欢迎关注微信公众号&#xff1a;极简XksA 微信账号&#xff1a;xksnh888 转载请先联系微信号&#xff1a;zs820553471 …

python爬虫之爬取拉勾网

这次要爬取拉勾网&#xff0c;拉勾网的反爬做的还是很不错的啊&#xff0c;因为目标网站是Ajax交互的我一开始是直接分析json接口来爬取的&#xff0c;但是真的很麻烦&#xff0c;请求头一旦出点问题就给识别出来了后续我就改了一下方法用selenium来模拟浏览器去获取 招聘求职…

爬虫练习六:爬取拉勾招聘信息

1. 明确需求 1. 初学爬虫时&#xff0c;看着各路大佬以拉勾网为案例进行爬虫讲解&#xff0c;自己也这样尝试。结果因为个人水平实在太低&#xff0c;很快就触发反爬虫机制&#xff0c;甚至连个人的账号都被封禁。所以这次想要重新挑战一下&#xff0c;爬取拉勾展示的招聘数据。…

用接口登录拉勾网

前段时间一直忙于公司项目的测试工作导致一周多没有撸代码&#xff0c;所以今天通过悠悠是博客学习了一下如何让用接口登录拉勾网 下面介绍一下吧&#xff01;分享下经验以及心得&#xff0c;&#xff0c;虽然我知道也没什么人会看&#xff01; 首先呢要先登录拉钩网的网站&am…

拉勾网登录问题

拉钩登录问题&#xff0c;在参考别人的博客后&#xff0c;解决啦 class lagouSpider(CrawlSpider):name lagouallowed_domains [www.lagou.com]start_urls [https://www.lagou.com/]agent "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/" \"537.36 (…

selenium实例登陆拉勾网 外加手动验证验证码

selenium模拟登陆拉钩网 from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import os, json, time from urllib import parse from lxml import etree from fake_…

python -- 拉勾网爬虫模拟登录

入门爬虫一段时间&#xff0c;最近在做一个拉勾网的数据爬虫分析&#xff0c;项目也快接近尾声了&#xff0c;于是抽个时间写一下这个项目中遇到的一些问题。 目前拉勾网的反爬虫机制还是可以的&#xff0c;一开始用scrapy shell 分析拉勾网&#xff0c;发现拉勾网要校验usera…

基于Python的拉勾网的模拟登录获取cookie

lagou_login 拉勾网的模拟登录获取cookie&#xff0c;为爬虫做准备, 喜欢的点个赞&#xff0c;谢谢 入门爬虫一段时间&#xff0c;最近在做一个拉勾网的数据爬虫分析&#xff0c;项目也快接近尾声了&#xff0c;于是抽个时间写一下这个项目中遇到的一些问题。 目前拉勾网的反…

selenium模拟登陆拉勾网

初学selenium&#xff0c;尝试了一下模拟登录拉勾网&#xff0c;感觉还挺好玩的 就剩下最后的验证码不会处理了。。。 思路就是在网页代码中找到对应的框的属性进行查询&#xff0c;然后点击、输入就进行了。 之后就会看到Chrome弹出来自动完成一系列动作&#xff0c;感觉很…