Python爬取整个网页的数据

article/2025/10/22 15:57:57

本案例是基于PyCharm开发的,也可以使用idea。
在项目内新建一个python文件Test.py
Test.py

# 导入urllib下的request模块
import urllib.request
# 导入正则匹配包
import re# -*- encoding:utf-8 -*-
"""
@作者:小思
@文件名:Test.py
@时间:2018/11/13  14:42
@文档说明:测试爬虫(以爬取https://www.ittime.com.cn/news/zixun.shtml上的网页数据为例)
"""# 步骤
# 1.确定要爬取数据的网址
# 2.获取该网址的源码
# 3.使用正则表达式去匹配网址的源码(匹配所需要的数据类型)
# 4.将爬取的数据保存至本地或者数据库# 确定要爬取数据的网址
url="https://www.ittime.com.cn/news/zixun.shtml"
# 该网址的源码(以该网页的原编码方式进行编码,特殊字符编译不能编码就设置ignore)
webSourceCode=urllib.request.urlopen(url).read().decode("utf-8","ignore")# 匹配数据的正则表达式
# 所有的图片
imgRe=re.compile(r'src="(.*?\.jpg)"')
# 所有的标题
titleRe=re.compile(r'<h2><a href=".*?" target="_blank">(.*?)</a></h2>')
# 所有的简介
contentRe=re.compile(r'<p>(.*?)</p>')
# 所有的作者
authorRe=re.compile(r'<span class="pull-left from_ori">(.*?)<span class="year">(.*?)</span></span>')
# 匹配网页对应的标题数据
titles=titleRe.findall(webSourceCode)
images=imgRe.findall(webSourceCode)
content=contentRe.findall(webSourceCode)
authors=authorRe.findall(webSourceCode)
print("标题==============================================================")
for title in titles:print(title)
print("图片==============================================================")
for image in images:print("https://www.ittime.com.cn"+image)
print("内容简介==============================================================")
for c in content:print(c)
print("作者==============================================================")
for author in authors:print(author[0])
print("时间==============================================================")
for time in authors:print(author[1])

运行Test.py,控制台输出信息。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如果分页的信息也全部需要,则写一个集合来保存这些需要读取数据的网址,将Test.py封装成方法。
在循环里依次调用
Test.py

# 导入urllib下的request模块
import urllib.request
# 导入正则匹配包
import re# -*- encoding:utf-8 -*-
"""
@作者:小思
@文件名:Test.py
@时间:2018/11/13  14:42
@文档说明:测试爬虫(以爬取https://www.ittime.com.cn/news/zixun.shtml上的图片为例)
"""# 步骤
# 1.确定要爬取数据的网址
# 2.获取该网址的源码
# 3.使用正则表达式去匹配网址的源码(匹配所需要的数据类型)
# 4.将爬取的数据保存至本地或者数据库
def getResouces(url):# 该网址的源码(以该网页的原编码方式进行编码,特殊字符编译不能编码就设置ignore)webSourceCode=urllib.request.urlopen(url).read().decode("utf-8","ignore")# 匹配数据的正则表达式# 所有的图片imgRe=re.compile(r'src="(.*?\.jpg)"')# 所有的标题titleRe=re.compile(r'<h2><a href=".*?" target="_blank">(.*?)</a></h2>')# 所有的简介contentRe=re.compile(r'<p>(.*?)</p>')# 所有的作者authorRe=re.compile(r'<span class="pull-left from_ori">(.*?)<span class="year">(.*?)</span></span>')# 匹配网页对应的标题数据titles=titleRe.findall(webSourceCode)images=imgRe.findall(webSourceCode)content=contentRe.findall(webSourceCode)authors=authorRe.findall(webSourceCode)print("标题==============================================================")for title in titles:print(title)print("图片==============================================================")for image in images:print("https://www.ittime.com.cn"+image)print("内容简介==============================================================")for c in content:print(c)print("作者==============================================================")for author in authors:print(author[0])print("时间==============================================================")for time in authors:print(author[1])# 读取前十页的数据
for i in range(2,10):getResouces(f"https://www.ittime.com.cn/news/zixun_{i}.shtml")

注意!!!
①无论是java后台还是python后台需要大量的数据,都可以使用这种方式,它读取速度非常快,可以保存到本地,或者数据库。读取的时候要保持有网络哦~

②使用python爬取网页的数据并不困难,重要的是对你所需的数据的源代码的分析,要善于寻找规律,并且写出正确的正则表达式

说在最后的话:编写实属不易,若喜欢或者对你有帮助记得点赞+关注或者收藏哦~


http://chatgpt.dhexx.cn/article/EkKEbtwo.shtml

相关文章

python数据爬取及数据可视化分析

电影网站数据分析及可视化研究 本博客是一篇集数据爬取&#xff0c;存储为excel表格&#xff0c;将数据可视化为一体的博文&#xff0c;数据爬取采用request等方法&#xff0c;数据可视化会使用图表进行展示&#xff0c;有改进的地方还请大家多多指教。 目录 电影网站数据分析…

Python 爬取网页数据的两种方法

Python 爬取网页数据的两种方法 1. 概述2. 使用pandas 爬取网页数据2.1 打开网页2.2 打开 PyCharm 编译器 3.使用urllib爬取网页数据并写入Excel表3.1 下载 urllib 库3.2 代码如下3.3 运行结果如下 结束语 1. 概述 网络抓取是从任何网站或任何其他信息源中提取数据的过程&…

使用 Python 爬取网页数据

在需要过去一些网页上的信息的时候&#xff0c;使用 Python 写爬虫来爬取十分方便。 1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 HTML 解析库, 可以编写出用于采集网络数据的…

如何用Python爬数据?(一)网页抓取

你期待已久的Python网络数据爬虫教程来了。本文为你演示如何从网页里找到感兴趣的链接和说明文字&#xff0c;抓取并存储到Excel。 &#xff08;由于微信公众号外部链接的限制&#xff0c;文中的部分链接可能无法正确打开。如有需要&#xff0c;请点击文末的“阅读原文”按钮&a…

python爬虫爬取网页数据

前言 python爬取页面内容的编程教程&#xff1a; 1.首先要明确想要爬取的目标。对于网页源信息的爬取首先要获取url&#xff0c;然后定位的目标内容。具体如图所示。 2.先使用基础for循环生成的url信息。具体如图所示。 &#xff08;文末送读者福利&#xff09; 3.然后需要模…

Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章

原标题&#xff1a;解决Python爬虫爬不到数据 前言&#xff1a; 近期&#xff0c;通过做了一些小的项目&#xff0c;觉得对于Python爬虫有了一定的了解&#xff0c;于是&#xff0c;就对于Python爬虫爬取数据做了一个小小的总结&#xff0c;希望大家喜欢&#xff01; 文章目录…

Python爬虫学习-简单爬取网页数据

疫情宅家无事&#xff0c;就随便写一些随笔吧QwQ… 这是一篇介绍如何用Python实现简单爬取网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。 以网页https://jbk.39.net/mxyy/jbzs/为例&#xff0c;假设我们要爬取的部分数据如下图所示&#…

Python爬取网页数据

都说python爬网页数据方便&#xff0c;我们今天就来试试&#xff0c;python爬取数据到底有多方便 简介 爬取数据&#xff0c;基本都是通过网页的URL得到这个网页的源代码&#xff0c;根据源代码筛选出需要的信息 准备 IDE&#xff1a;pyCharm 库&#xff1a;requests、lxml…

Python爬虫爬取数据

我是Python小白&#xff0c;我会用比较通俗易懂的方法告诉你如何去爬取数据。 一开始&#xff0c;我们需要pycharm&#xff08;也就是我们编代码的工具&#xff09;&#xff0c;其次我们需要打开我们需要爬取数据的网页&#xff0c;我以鞋子为例。 那么&#xff0c;接下来就开…

如何使用Python爬虫抓取数据?

Python爬虫应用十分广泛&#xff0c;无论是各类搜索引擎&#xff0c;还是日常数据采集&#xff0c;都需要爬虫的参与。其实爬虫的基本原理很简单&#xff0c;今天小编就教大家如何使用Python爬虫抓取数据&#xff0c;感兴趣的小伙伴赶紧看下去吧&#xff01; 工具安装 首先需要…

Python爬虫:高效采集数据的几种方法

作为互联网时代的新生力量&#xff0c;爬虫技术已经成为了各行各业不可或缺的一环。那么&#xff0c;如何高效地获取网络数据呢&#xff1f;本文将从以下十个方面逐步分析讨论。 一、基于HTTP协议的爬虫 HTTP协议是目前互联网上使用最广泛的协议&#xff0c;基于此协议的爬虫…

unity3d 收费模式_unity3d中的访客模式

unity3d 收费模式 抽象 (Abstract) Game development as a discipline is challenging on its own compared to traditional software development. The ability to solve performance-related, architectural and other challenges is often the key to success in the field.…

狼人杀微信小程序项目实例(附源码)

一、项目展示 狼人杀是一款多人参与的&#xff0c;通过语言描述推动、较量口才和分析判断能力的策略类桌面游戏 玩家人数适于4-18人参与 主要角色有&#xff1a;狼人 、预言家 、平民 、女巫 、猎人 、白痴 、守卫 、骑士等 同时还有众多的玩家形象 各角色的职能介绍 设置游戏…

python获取游戏窗口_python中pygame针对游戏窗口的显示方法实例分析(附源码)

本文实例讲述了python中pygame针对游戏窗口的显示方法。分享给大家供大家参考,具体如下: 在这篇教程中,我将给出一个demo演示: 当我们按下键盘的‘f’键的时候,演示的窗口会切换到全屏显示和默认显示两种显示模式 并且在后台我们可以看到相关的信息输出: 上面给出了一个简…

unity3d之按秒倒计时

image.png 按秒倒计时 自定义变量计时 在程序中定义变量来累计时间。 实例代码 using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.UI;public class textTimer : MonoBehaviour {// Start is called before the first frame …

【开发工具】如何使用JetBrains Rider更好的开发Unity程序

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址我的个人博客QQ群&#xff1a;1040082875 一、前言 JetBrains Rider是一款快速强大的C#编辑器&#xff0c;也就是俗称的IDE。有2500多项的智能代码检查与重构&#xff0c;更加迅速编写和零误差的代码。完美集成与Unity…

Unity制作类胡闹厨房游戏 KitchenChaos 笔记整理

本文章是油管上CodeMonkey的一个unity项目KitchenChaos的笔记整理&#xff0c;学习并整理这个项目主要是因为终于看到了一个比较完整地用到了unity的各种功能、风格较为清爽的、代码结构清晰的同时比较新的项目。在学习之后也确实有很大的收获&#xff0c;首先通过该教程第一次…

unity python热更新_Unity C#热更新方案 ILRuntime学习笔记(一) Hello World

一、ILRuntime介绍 问&#xff1a;什么是热更新? 答&#xff1a;软件在使用时就能实现更新的方式就叫做热更新。热更新无需用户重新下载安装或重启&#xff0c;在使用时即可更新&#xff0c;方便快捷体验良好。 问&#xff1a;什么是ILRuntime? 答&#xff1a;ILRuntime是一个…

基于mediapipe的动作捕捉和Unity的球棍模型同步

基于mediapipe的动作捕捉和Unity的球棍模型同步 所需环境python端unity端效果 所需环境 这是我所使用的环境 python3.9 安装mediapipe和opencv-python包 python和Unity通信使用socket Unity2021.3 python端 如何安装那两个包我就不说了&#xff0c;大家有不明白可以去百度 m…

unity 原型_使用Unity和React快速进行原型制作

unity 原型 Web applications are great way to quickly reach a lot of users without the hassle of native client installs and play store downloads. Web frameworks such as React allow page components to communicate and respond to user interaction much like tra…