python自动化爬虫实战

article/2025/8/27 0:54:33

python自动化爬虫实战

偶然的一次机会再次用到爬虫,借此机会记录一下爬虫的学习经历,方便后续复用。

需求:爬取网站数据并存入的csv文件中,总体分为两步

  1. 爬取网站数据
  2. 存到到csv文件中

1、配置爬虫环境

1.1、下载自动化测试驱动

由于需要实现模拟手动点击浏览器的效果,因此笔者使用到了chromedriver.exe自动化驱动文件。这里选择谷歌浏览器相同版本的驱动。
驱动下载中心

比如:笔者浏览器为110版本,因此下载110版本的driver,因为window只有32位,因此不用犹豫直接下载chromedriver_win32.zip文件

在这里插入图片描述

1.2、下载需要的库文件

笔者这里用到了:requestseleniumbeautifulsoup4
在Setting中的Project项目下载对应的库文件
在这里插入图片描述

2、编写代码

以上爬虫环境配置完成后,接下来便可以编码了。
爬虫的基本逻辑:

  1. 配置谷歌浏览器的驱动文件和自动化测试文件
  2. 创建保存爬取数据的字典和设置读取的起始页码和结束页码
  3. 判断是否有下一页并进行等待,如果没有下一页则直接退出
  4. 解析读取到的页面信息
  5. 保存到csv文件中

根据以上的逻辑,大致就可以理解代码的意思了

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
import csv# 1、设置自动化启动的浏览器和浏览器的驱动器
options = Options()
# 设置自己电脑的浏览器启动文件目录
options.binary_location = "C:\\Users\\wuming\\Google\\Chrome\\Application\\chrome.exe"
options.add_argument('–-incognito')
options.add_argument('--disable-infobars')
options.add_argument('--start-maximized')
# 自动化浏览器驱动器
driver = webdriver.Chrome(options=options, service=Service("D:\\chromedriver.exe"))# 2、设置爬取的网站
url = 'https://bj.zu.anjuke.com/fangyuan/'
driver.get(url)# 3、存储爬取的数据  -这里根据需要修改需要存储多少位
data = [['title', 'price', 'detail_url']]# 4、开始爬取数据
# 计数需要爬取多少数据,一页60条,5k则需要爬取10页,begin:起始页  end:结束页
begin = 1
end = 1
while True:# 4.1、等待下一页按钮出现try:next_button = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.LINK_TEXT, '下一页 >')))except:break# 4.2、点击下一页按钮next_button.click()# 判断是否到达结束页,到达则退出if begin > end:breakbegin = begin + 1# 4.3、等待页面加载完成WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, 'zu-itemmod')))# 4.4、解析页面数据house_list = driver.find_elements(By.CLASS_NAME, 'zu-itemmod')for house in house_list:title = house.find_element(By.TAG_NAME, 'h3').text.strip()price = house.find_element(By.TAG_NAME, 'strong').text.strip()detail_url = house.find_element(By.TAG_NAME, 'a').get_attribute('href')print(title, price, detail_url)# 4.5、向data中添加数据data.append([title, price, detail_url])driver.quit()# 5、将爬取的数据存入csv文件中
with open('D:\\wuming\\data.csv', 'w', newline='') as file:writer = csv.writer(file)for row in data:writer.writerow(row)

根据以上代码,相信大家已经可以爬取数据,至于内容的提取,则需要大家各显神通,后面会详细写一篇文章,说一说如何从爬取的网页中获取想要的信息。


http://chatgpt.dhexx.cn/article/Fb0ysW3o.shtml

相关文章

Python自动化神器-Playwright

1、Playwright介绍 Playwright是一个强大的Python库,仅用一个API即可自动执行Chromium、Firefox、WebKit等主流浏览器自动化操作,并同时支持以无头模式、有头模式运行。Playwright提供的自动化技术是绿色的、功能强大、可靠且快速,支持Linux…

python自动化测试绕过手机验证码

自动化测试登录需使用手机验证码,但是测试水平太弱只能让开发写死验证码??? 不服气就试试别的方法,这里提供两种解决思路: 1.从服务器日志中获取 此种方法尤其适合生产数据库不开放给测试的公司&#xff…

什么是Python自动化

python自动化是指用python语言实现高效的自动化操作,比如自动化测试,自动化运维等等,而自动化就是指系统在没有人或较少人的直接参与下,按照人的要求进行处理的过程。 Python是一门计算机脚本语言,用它可以实现高效的自…

7个实用的Python自动化代码,别再重复造轮子了

关于Python有一句名言:不要重复造轮子。 但是问题有三个: 1、你不知道已经有哪些轮子已经造好了,哪个适合你用。有名有姓的的著名轮子就400多个,更别说没名没姓自己在制造中的轮子。 2、确实没重复造轮子,但是在重复…

全网最详细的Python自动化测试

1. 概述 1.1 python自动化 什么是python自动化?我理解的Python自动化测试就是把以前人为测试转化为机器测试的一种过程。自动化测试是一种比手工测试更快获得故障反馈的方法。 自动化测试是一种质量保障的方式,最重要的还是以做好一款高质量产品为前提…

python自动化

一、python回顾 1、python的发展方向 web开发 爬虫数据分析 机器学习(深度学习) 自动化运维 自动化测试 2、python测试成长 初级测试工程师 中级测试工程师 测试开发工程师 3、自动化与Python python的强大的第三方库,为很多的自动化流程提供的快捷的实现…

bootdo jar 改war 坑

最新下载bootdo pom文件中这一行请保持注释,严格按照bootdo的文档走。 请勿自由发挥!

BootDo平台数据库使用Oracle

最近协助使用开源框架,在网上到个BootDo 使用起来还是非常方便的,由于数据库原例子使用mysql,需求要后台使用成Oracle,有时看看例子还不错,真要修改成项目来使用,还有得研究,从连接数据库、acti…

BootDo:修改启动时的象形文字

一、内容介绍 BootDo是在SpringBoot基础上搭建的一个Java基础开发平台,很有学习价值,本文将介绍BootDo如何修改启动时的象形文字。 二、前置工作 1.本文bootdo下载的地址为https://gitee.com/lcg0124/bootdo,压缩包名为lcg0124-bootdo-mas…

基于 Springboot 和 Mybatis 的后台管理系统 BootDo

介绍: 项目介绍 面向学习型的开源框架,简洁高效,减少过渡封装,展现技术本质 Springboot作为基础框架,使用mybatis作为持久层框架 使用官方推荐的thymeleaf做为模板引擎,shiro作为安全框架,主流技术&…

Bootdo后台管理系统使用步骤详解

Bootdo后台管理系统使用步骤 Home1.导入项目2.创建数据库3.启动项目4.数据库新表代码生成5.jar包导出6.添加菜单 Home 面向学习型的开源框架,简洁高效,减少过渡封装,展现技术本质! 项目地址(GitHub):https://github.com/lcg0124/bootdo 项…

bootdo框架使用步骤总结

仅作为个人学习纪录,其他人只作为参考,图较少,会不断更新。创建时间 2018-04-19 项目地址 bootdo官网 因为从git上下载的文件结构并不是习惯,所以将里面一层的复制到最完成根目录idea导入,选择到项目以后&#xff0c…

登陆页面总结(bootdo)

总结自开源项目bootdo 图标设置 验证码 验证码生成工具类 import org.slf4j.Logger; import org.slf4j.LoggerFactory;import javax.imageio.ImageIO; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; import javax.servlet.…

bootdo mysql_iBootDo: 基于BootDo项目定制版,兼容MySQL、Oracle

iBootDo 项目介绍 基于BootDo项目定制版,根据个人项目经验改造:兼容MySQL、Oracle,Thymeleaf升级到3.0,默认Session存入Redis等; 感谢BootDo作者 lcg0124 的分享。 BootDo地址: https://gitee.com/lcg0124/…

bootdo框架首页解析

跳转首页 左侧大的方向上分三大块 左侧第一大块中 包含有 重复的功能 可以去掉 右侧部分控制左侧展开和收起的功能 <div class"row content-tabs"><button class"roll-nav roll-left J_tabLeft"><i class"fa fa-backward">&l…

后台管理页面(bootdo)

项目源码&#xff1a;bootdo: 面向学习型的开源框架&#xff0c;简洁高效&#xff0c;减少过渡封装&#xff0c;展现技术本质 左边的菜单栏分析 数据库结构 样式实例 用树结构封装菜单数据&#xff0c;方便获取前后节点&#xff0c;通过自身id和父id相匹配&#xff0c;构建菜…

BootDo项目

因为本地项目需要使用bootdo和springCloud结合&#xff0c;所以&#xff0c;我今天开始学习一下bootdo的知识 但是从官网下载下一个bootdo项目导入idea之后发现并不能运行起来&#xff0c;报cant found git.exe 然后需要在官网下载对应版本的git。并且在setting–git中配置一下…

BootDo:源代码打包与自启动

一、内容介绍 BootDo是在SpringBoot基础上搭建的一个Java基础开发平台&#xff0c;很有学习价值&#xff0c;本文将介绍BootDo的源代码打包与自启动。 二、前置工作 1.本文bootdo下载的地址为https://gitee.com/lcg0124/bootdo&#xff0c;压缩包名为lcg0124-bootdo-master.…

BootDO框架的使用及介绍

BootDo是一个用于微服务的高效、低包、面向学习的开源Java EE开发框架。 BootDo是一个基于SpringBoot的Java基本开发平台。MyBatis是数据访问层&#xff0c;ApacheShiro是权限授权层&#xff0c;Ehcache缓存常用数据。 BootDo主要定位在后台管理系统中学习通信。内置后端管理…