Python网络爬虫快速上手

article/2025/10/4 4:33:48

环境准备:

事先安装好,pycharm
打开File——>Settings——>Projext——>Project Interpriter
在这里插入图片描述
点击加号(图中红圈的地方)
在这里插入图片描述
点击红圈中的按钮
在这里插入图片描述
选中第一条,点击铅笔,将原来的链接替换为(这里已经替换过了):
https://pypi.tuna.tsinghua.edu.cn/simple/
点击OK后,输入requests-html然后回车
选中requests-html后点击Install Package
在这里插入图片描述
等待安装成功,关闭

通过解析网页源代码

实例内容:
从某博主的所有文章爬取想要的内容。
实例背景:
从(https://me.csdn.net/weixin_44286745)博主的所有文章获取各文章的标题,时间,阅读量。

  1. 导入requests_html中HTMLSession方法,并创建其对象
from requests_html import HTMLSession
session = HTMLSession()
  1. 使用get请求获取要爬的网站,得到该网页的源代码。
html = session.get("https://me.csdn.net/weixin_44286745").html
  • 找到所有文章
  allBlog=html.xpath("//dl[@class='tab_page_list']") 
  • 进入网站主页(本例: https://me.csdn.net/weixin_44286745)

  • 文章空白处右键检查可以定位到这文章的标签
    在这里插入图片描述

  • 其他文章一样操作,然后找到所有文章共同的标记(这里所有文章的class都是‘my_tab_page_con’)
    在这里插入图片描述

  • xpath 可以遍历html的各个标签和属性,来定位到我们需要的信息的位置,并提取。

  • 网页分析获取标题,阅读量,日期。

for i in allBlog:title = i.xpath("dl/dt/h3/a")[0].textviews = i.xpath("//div[@class='tab_page_b_l fl']")[0].textdate = i.xpath("//div[@class='tab_page_b_r fr']")[0].textprint(title +' ' +views +' ' + date )

网页分析:

  • 因为有多篇文章,分别获取使用for循环,上述代码已得到所有文章所以i表示一篇文章

  • 第二行代码获取文章标题,于获取文章类似,鼠标放到标题上右键检查,因为文章只有一个标题所以用绝对路径也可以按标签一层层进到标题位置。
    在这里插入图片描述

  • xpath返回的是列表,我们要第一个所以要加下标(列表里也只有一个元素),要输出的是文本,所以,text获取文本。

  • 阅读量和时间也是重复的操作
    在这里插入图片描述

  • 可以用相对路径也可以用绝对路径,一般都是用相对路径,格式仿照代码。

  • 第五行代码,每得到一篇文章的信息就输出,遍历完就可以获得全部的信息。

完整代码:

from requests_html import HTMLSession
session = HTMLSession()html = session.get("https://me.csdn.net/weixin_44286745").htmlallBlog=html.xpath("//dl[@class='tab_page_list']")for i in allBlog:title = i.xpath("dl/dt/h3/a")[0].textviews = i.xpath("//div[@class='tab_page_b_l fl']")[0].textdate = i.xpath("//div[@class='tab_page_b_r fr']")[0].textprint(title +' ' +views +' ' + date )

可以自己爬其他东西,如文章图片,动手试试吧!!!
未完待续

通过html请求

自动化


http://chatgpt.dhexx.cn/article/fXfhBq6K.shtml

相关文章

【爬虫系列】爬虫实战--获取电影短评并生成词云

最近看完了口碑大赞的国产科幻电影,感觉非常的不错,刷新了对未来科幻的认知啊。在大饱眼福的同时,也想着大家对这部电影都是怎么评价的呢? 打开豆瓣网,找到电影短评页面,该网页是分页类型的,我…

selenium 快乐爬虫实战之 电影链接的爬取

文章目录 思路源码分析初始化 Chrome获取搜索引擎页面给出的网页链接循环遍历网页链接,过滤电影链接第二次过滤并输出链接最后加上程序入口 完整源码 复制即用效果 思路 手动用搜索引擎找电影链接慢而且不方便,找到的链接也有限。各大电影网站的链接不是…

作为一名爬虫人如何实现千万级数据爬取?

爬虫人,爬虫魂!爬虫路上莫乱行 爬虫门槛不高,高就高在往后余生的每一次实操都随时会让你崩溃 在这个大数据智能时代,数据就是金钱!所以越来越多的企业都很重视数据,然后通过爬虫技术等手段获取一些公开数据,为公司业务及项目进行赋能 在原始资本积累的初期,使用一些低…

爬虫攻守道 - 2023最新 - JS逆向 - Python Scrapy实现 - 爬取某天气网站历史数据

目录 背景介绍 网站分析 第1步:找到网页源代码 第2步:分析网页源代码 Python 实现 成果展示 后续 Todo 背景介绍 今天这篇文章,3个目的,1个是自己记录,1个是给大家分享,还有1个是向这个被爬网站的前…

如何使用爬虫一键批量采集新浪微博内容

信息时代如何真正做到,秀才不出门,能知天下事。不知道你们用的是啥,反正小喵我用的是微博。现在微博上新闻是多的不得了,国家大事,社会日常,娱乐新闻。微博热搜上随便一个话题都可以引起网民们的激烈讨论。…

scrapy爬虫实战——米哈游官网数据爬取

项目总览 前言项目建立爬虫代码编写爬虫运行导出到Excel后记 前言 scrapy是一个强大的爬虫框架,熟练地使用它几乎可以随心所欲地抓取任何网页上想要获得的数据。笔者初学爬虫,需要项目练手,适逢有不少朋友热衷于《原神》这款由米哈游开发的游…

一个神器,大幅提升爬虫爬取效率!

这是「进击的Coder」的第 575 篇技术分享 作者:崔庆才 在做爬虫的时候,我们往往可能这些情况: 网站比较复杂,会碰到很多重复请求。有时候爬虫意外中断了,但我们没有保存爬取状态,再次运行就需要重新爬取。 …

python爬虫基本功(一)--初识python爬虫与爬虫学习路径

大家好,这里是Kaiser。👏👏今天想给大家介绍下python爬虫的知识,我将与大家一起去揭开python爬虫的神秘面纱,字不多敲,让我们进入今天的主题:初识python爬虫。 文章目录 1️⃣什么是爬虫2️⃣爬…

神箭手 爬虫操作(1)

今天有一个任务,是要将微博用户的昵称从数据库导入到神箭手中。 以前一直是手动操作,现在有一个需求是要直接导入到设置中。 数据库使用的是mysql,数据库连接使用的是JDBCtemplate,使用spring构建,还要用到神箭手的S…

如何在神箭手云爬虫上写爬虫

摘要 上一篇博客跟大家详细介绍了如何写出《黄焖鸡米饭是怎么火起来的》这样的数据分析类的文章,相信很多人都对数据来源也就是如何爬取到黄焖鸡米饭商家信息很感兴趣。那么今天我就跟大家具体讲一讲怎么使用神箭手云爬虫写爬虫,以上篇博客的…

神箭手云爬虫平台 如何在1小时内编写简单爬虫

既然你来到了这里,想必你肯定已经知道了神箭手云爬虫平台是干什么的,目的也是非常的明确。 那么接下来的过程中,我将给你演示如何在最快时间内编写一个简单的爬虫,每一个属性的讲解,将会让你一路顺风。 demo项目GitHu…

神箭手云爬虫工具

title: 神箭手云爬虫 categories: 神箭手 tags:爬虫 分为: 入口页,帮助页,内容页 入口页: scanUrl 爬虫网页的入口 帮助页:helperurl 一帮包含大量的内容页(列表),多数情况下事业…

JS求绝对值

微信小程序开发交流qq群 173683895 承接微信小程序开发。扫码加微信。 需求,一个变量,需要判断它的值为负数时不能小于-20,正数也不能小于20,这个时候就需要用到求绝对值了。 Math.abs(num) > 求绝对值 使用示例&#xf…

javascript:求绝对值最小的数

问题来源:http://androidguy.blog.51cto.com/974126/1129543 有一个已经排序的数组(升序),数组中可能有正数、负数或0,求数组中元素的绝对值最小的数,要求,不能用顺序比较的方法(复杂…

力扣 -----最小绝对值(JavaScript解法)

一、题目描述 二、示例 三、解题思路 先进行一个排序,然后使用双指针,依次进行比较,将比较的值进行存储,最小值改变的话,数组置空,最小值改变,如果和最小值相等的话直接push。我刚开始写的排序…

python3 绝对值_python3对序列求绝对值

原博文 2018-11-08 11:27 − http://www.cnblogs.com/itdyb/p/5731804.html 一开始我是这样写的,据说这样写python2是可以的: myList [-1,2,-3,4,-5,6]absList map(abs, myList) &... 0 1936 相关推荐 2019-12-23 10:33 − ## Python3使用sud…

【前端】JavaScript基础(二)

目录 一、内置对象 Math对象 Data日期 数组对象 字符串对象 字符串的不可变 根据字符返回位置 根据位置返回字符(重点) 字符串基本方法(重点) 字符串的替换与转换 二、简单类型和复杂类型 简单类型传参 复杂类型传参 一、内…

LeetCode 任意子数组和绝对值的最大值(JavaScript)

这道题目,我是通过看题解,然后通过自己思考才写出来的,第一次写博客,如果有不好之处,请谅解。 写这个题目之前,我们先了解一下前缀和,通过下面例子,或许你就明白了什么是前缀和了。…

常用JavaScript控制结构语句,绝对值,累加,阶乘,循环

计算一个数的绝对值 function abs(x) {if (x > 0) {return x;} else {return -x;} } console.log(abs(10) abs(-10)); //>true计算数组元素之和 let arr [1, 3, 5];function sum(array) {let sum 0;for (let x of array) { //循环数组把每个元素赋给xsum x;}return…