python-爬取网站数据

article/2025/10/22 13:32:46

一、安装jar

找到python解释解释器的安装根目录,执行以下命令,

pip install requests
#如果这个BeautifulSoup这个安装不上,可以换成pip install BeautifulSoup4试试
pip install BeautifulSoup

二、肯定就是敲代码了

import urllib.request
from bs4 import BeautifulSoup
def handle_request(url):#反爬headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:106.0) Gecko/20100101 Firefox/106.0',}#请求request=urllib.request.Request(url,headers=headers)return request
def parse_content(content,fp):# 生成soup对象 lxml类型 soup已经拿到网页所有数据soup=BeautifulSoup(content,'lxml')#分析网页,获取自己想要的数据 通过select 来获取指定的数据name_list=soup.select("h3")content_list=soup.select("div .des")datelist=[]#把数据进行循环并且格式化数据for x,y in zip(name_list,content_list):#去空格name=x.get_text().strip('\n /')content=y.get_text().strip('\n /')#格式数据dict={"书名":name,"内容":content}datelist.append(dict)#print(name+":"+conten)if datelist=="":print("没有打印内容")return#写入到磁盘,把数据进行持久化fp.write(str(datelist))#关闭文件流fp.close()def main():# 打开文件fp = open('作者合集.txt','w',encoding='utf8')url = 'https://www.shicimingju.com/hecheng/index.html'# 构建请求对象request = handle_request(url)# 发送请求,得到响应content=urllib.request.urlopen(request).read().decode('utf8')# 解析内容即可parse_content(content,fp)if __name__ == '__main__':main()

三、效果

在这里插入图片描述


http://chatgpt.dhexx.cn/article/ajVoTRYX.shtml

相关文章

Python爬虫入门教程!手把手教会你爬取网页数据

其实在当今社会,网络上充斥着大量有用的数据,我们只需要耐心的观察,再加上一些技术手段,就可以获取到大量的有价值数据。这里的“技术手段”就是网络爬虫。今天就给大家分享一篇爬虫基础知识和入门教程: 什么是爬虫?…

Python爬取整个网页的数据

本案例是基于PyCharm开发的,也可以使用idea。 在项目内新建一个python文件Test.py Test.py # 导入urllib下的request模块 import urllib.request # 导入正则匹配包 import re# -*- encoding:utf-8 -*- """ 作者:小思 文件名:…

python数据爬取及数据可视化分析

电影网站数据分析及可视化研究 本博客是一篇集数据爬取,存储为excel表格,将数据可视化为一体的博文,数据爬取采用request等方法,数据可视化会使用图表进行展示,有改进的地方还请大家多多指教。 目录 电影网站数据分析…

Python 爬取网页数据的两种方法

Python 爬取网页数据的两种方法 1. 概述2. 使用pandas 爬取网页数据2.1 打开网页2.2 打开 PyCharm 编译器 3.使用urllib爬取网页数据并写入Excel表3.1 下载 urllib 库3.2 代码如下3.3 运行结果如下 结束语 1. 概述 网络抓取是从任何网站或任何其他信息源中提取数据的过程&…

使用 Python 爬取网页数据

在需要过去一些网页上的信息的时候,使用 Python 写爬虫来爬取十分方便。 1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 HTML 解析库, 可以编写出用于采集网络数据的…

如何用Python爬数据?(一)网页抓取

你期待已久的Python网络数据爬虫教程来了。本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel。 (由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮&a…

python爬虫爬取网页数据

前言 python爬取页面内容的编程教程: 1.首先要明确想要爬取的目标。对于网页源信息的爬取首先要获取url,然后定位的目标内容。具体如图所示。 2.先使用基础for循环生成的url信息。具体如图所示。 (文末送读者福利) 3.然后需要模…

Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章

原标题:解决Python爬虫爬不到数据 前言: 近期,通过做了一些小的项目,觉得对于Python爬虫有了一定的了解,于是,就对于Python爬虫爬取数据做了一个小小的总结,希望大家喜欢! 文章目录…

Python爬虫学习-简单爬取网页数据

疫情宅家无事,就随便写一些随笔吧QwQ… 这是一篇介绍如何用Python实现简单爬取网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。 以网页https://jbk.39.net/mxyy/jbzs/为例,假设我们要爬取的部分数据如下图所示&#…

Python爬取网页数据

都说python爬网页数据方便,我们今天就来试试,python爬取数据到底有多方便 简介 爬取数据,基本都是通过网页的URL得到这个网页的源代码,根据源代码筛选出需要的信息 准备 IDE:pyCharm 库:requests、lxml…

Python爬虫爬取数据

我是Python小白,我会用比较通俗易懂的方法告诉你如何去爬取数据。 一开始,我们需要pycharm(也就是我们编代码的工具),其次我们需要打开我们需要爬取数据的网页,我以鞋子为例。 那么,接下来就开…

如何使用Python爬虫抓取数据?

Python爬虫应用十分广泛,无论是各类搜索引擎,还是日常数据采集,都需要爬虫的参与。其实爬虫的基本原理很简单,今天小编就教大家如何使用Python爬虫抓取数据,感兴趣的小伙伴赶紧看下去吧! 工具安装 首先需要…

Python爬虫:高效采集数据的几种方法

作为互联网时代的新生力量,爬虫技术已经成为了各行各业不可或缺的一环。那么,如何高效地获取网络数据呢?本文将从以下十个方面逐步分析讨论。 一、基于HTTP协议的爬虫 HTTP协议是目前互联网上使用最广泛的协议,基于此协议的爬虫…

unity3d 收费模式_unity3d中的访客模式

unity3d 收费模式 抽象 (Abstract) Game development as a discipline is challenging on its own compared to traditional software development. The ability to solve performance-related, architectural and other challenges is often the key to success in the field.…

狼人杀微信小程序项目实例(附源码)

一、项目展示 狼人杀是一款多人参与的,通过语言描述推动、较量口才和分析判断能力的策略类桌面游戏 玩家人数适于4-18人参与 主要角色有:狼人 、预言家 、平民 、女巫 、猎人 、白痴 、守卫 、骑士等 同时还有众多的玩家形象 各角色的职能介绍 设置游戏…

python获取游戏窗口_python中pygame针对游戏窗口的显示方法实例分析(附源码)

本文实例讲述了python中pygame针对游戏窗口的显示方法。分享给大家供大家参考,具体如下: 在这篇教程中,我将给出一个demo演示: 当我们按下键盘的‘f’键的时候,演示的窗口会切换到全屏显示和默认显示两种显示模式 并且在后台我们可以看到相关的信息输出: 上面给出了一个简…

unity3d之按秒倒计时

image.png 按秒倒计时 自定义变量计时 在程序中定义变量来累计时间。 实例代码 using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.UI;public class textTimer : MonoBehaviour {// Start is called before the first frame …

【开发工具】如何使用JetBrains Rider更好的开发Unity程序

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址我的个人博客QQ群:1040082875 一、前言 JetBrains Rider是一款快速强大的C#编辑器,也就是俗称的IDE。有2500多项的智能代码检查与重构,更加迅速编写和零误差的代码。完美集成与Unity…

Unity制作类胡闹厨房游戏 KitchenChaos 笔记整理

本文章是油管上CodeMonkey的一个unity项目KitchenChaos的笔记整理,学习并整理这个项目主要是因为终于看到了一个比较完整地用到了unity的各种功能、风格较为清爽的、代码结构清晰的同时比较新的项目。在学习之后也确实有很大的收获,首先通过该教程第一次…

unity python热更新_Unity C#热更新方案 ILRuntime学习笔记(一) Hello World

一、ILRuntime介绍 问:什么是热更新? 答:软件在使用时就能实现更新的方式就叫做热更新。热更新无需用户重新下载安装或重启,在使用时即可更新,方便快捷体验良好。 问:什么是ILRuntime? 答:ILRuntime是一个…