爬取笔趣阁小说网站上的所有小说(一)

article/2025/9/9 8:05:41

爬取笔趣阁小说网站上的所有小说(一)

网址为:https://www.biqukan.cc/topallvisit/1.html

反反爬虫

爬虫首先要做的就是看看目标网址有没有反爬虫手段,一般网站都是有的,但是想这种网站的话,一般不会太厉害,所以只要价格请求头就好了。

user_agent = r'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
head = {'User-Agnet': user_agent, }
分析网址

打开网址的调试模式,第一章方法:按F12打开调试模式,然后点击调试窗口左上角的鼠标按钮,选择一个元素(小说)就可以看到对用的内容了;第二周方法,也可以在一个小说上点击右键,选择检查(Chrome浏览器)或审查(Firefox浏览器),就可以得到以下内容:

在这里插入图片描述

通过观察我们可以发现,对应打开的小说的源代码,上下对比可以考到每个小说的所有内容都在一个div里面,所以我们只需获得这些div就可以得到网址了;

    # 获得网页源码html = requests.get(url=first_url,headers=head)# 把我们使用的编码改成和网站相同的编码html.encoding = html.apparent_encoding# 使用BeautifulSoup清理源码,意思就是改变成我们人类看着方便的方式展示soup = BS(html.text, "html.parser")#所有包含小说网址的divbook_name_lists=soup.findAll(class_='caption')

findAll方法是可以通过个元素的名册可以找到所有的元素,并返回一个列表。

获取小说网址

因为我们现在只需要一个小说的网址,所以只要一下内容就可以提取到了。不需要包含图片的div。

<div class="caption"><h4><a href="https://www.biqukan.cc/book/37390/" title="总裁爹地惹不起">总裁爹地惹不起</a></h4><small class="text-muted fs-12">上官娆 / 著</small><p class="text-muted fs-12 hidden-xs">    一场渡假,被当小姐,回国还撞见未婚夫出轨。她怒然消失离开。五年后,她带着天才萌宝回归。小宝参加钢琴大赛,哪料到,儿子竟然还打..</p></div>
写入文件

book_name_lists已经包含了当前页面所有小说的地址,现在只需要循环提取并写入we年就达到了我们得目的,看代码:

    # 开始写入文件with open('第'+str(i) + '页.txt', 'a+', encoding='utf-8') as f:# 文档的头部信息# 遍历每本书for book in book_name_lists:# 书名print(book.a['title'])# 书链接print(book.a['href'])f.write(book.a['href']+'\n')

记得在最后加‘\n’换行符,不然第二个网址会写在第一个网址后面,造成混乱。

这里我们选择每一页写入一个网址,一也包含030个小说。

源码
import requests
from bs4 import BeautifulSoup as BS
import time
# 请求头
user_agent = r'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
head = {'User-Agnet': user_agent, }# 以10页为例
for i in range(1,11):# 地址first_url='https://www.biqukan.cc/topallvisit/'+str(i)+'.html'# 获得网页源码html = requests.get(url=first_url,headers=head)# 把我们使用的编码改成和网站相同的编码html.encoding = html.apparent_encoding# 使用BeautifulSoup清理源码,意思就是改变成我们人类看着方便的方式展示soup = BS(html.text, "html.parser")book_name_lists=soup.findAll(class_='caption')# 开始写入文件with open('第'+str(i) + '页.txt', 'a+', encoding='utf-8') as f:# 文档的头部信息# 遍历每本书for book in book_name_lists:# 书名print(book.a['title'])# 书链接print(book.a['href'])f.write(book.a['href']+'\n')#当前页面已经写入成功print("第" + str(i) + "页结束**********")# 睡眠一秒time.sleep(1)

爬取笔趣阁小说网站上的所有小说(一)
下载等功能在此链接


http://chatgpt.dhexx.cn/article/HKbvRqEd.shtml

相关文章

爬取书趣阁小说

这次将介绍如何爬取自己喜欢的小说&#xff0c;以及爬取过程中如何处理具有乱码的网页&#xff0c;以及如何去解码及封装代码 目标网址&#xff1a;http://www.shuquge.com/ 爬取书趣阁小说 1.分析网页(1) 分析网页(2) 审查网页代码(3) 请求网页内容(4) 对网页内容进行解码 2.…

飘云阁论坛出品汇编逆向专用记事本

飘云阁论坛出品&#xff0c;汇编&#xff0c;逆向专用记事本 可以方便查询&#xff0c;常用破解指令&#xff0c;菜鸟口诀等等 下载地址&#xff0c;http://soft.ctfile.com/info/aWO316433

【风云GM工具】

【风云GM工具】适用于风云游戏的GM工具&#xff0c;呕心沥血写的 不到之处请谅解 下载地址&#xff1a;https://wwlu.lanzoue.com/ihZBF0i9xkzg 若有版权问题&#xff0c;可以无条件删除&#xff0c; 只是自已爱好个人研究&#xff0c;

2019仿笔趣阁小说网站源码(PC版+手机版+APP+采集器+教程)下载

第三套杰奇WAP小说模板&#xff0c;使用百度MIP&#xff0c;更重要的是这次使用了百度的MIP来制作模板。 1、底层程序仍然是独立版程序&#xff0c;模板样式和代码已经全部重写&#xff0c;不在有原来的代码。 2、同时本套程序已经更新过底层代码&#xff0c;本套模板中&#x…

VS2015装西红柿插件时遇到的:未能正确加载“Visual Assist”包

当电脑上有多个西红柿插件时&#xff0c;之前的未卸载干净会发生冲突&#xff0c;倒置无法启动VS2015.例如我用的西红柿插件&#xff1a; 飘云阁的2073版&#xff0c;西红柿插件安装目录在哪儿呢&#xff0c;教大家一个方法&#xff0c;用Everything.exe查找VA_X.dll&#xff0…

飞飞CMS采集资源-内置飞飞CMS采集接口

怎么用飞飞CMS采集让关键词排名以及网站快速收录&#xff0c;相信很多小伙伴的网站排名都经历过天堂和地狱....。近端时间百度波动就很大&#xff0c;很多网站排名直接给PASS掉了&#xff0c;很多人对百度的这次调整摸不到啥情况&#xff0c;只能干等着恢复正常。虽然目前没有迹…

飘云阁内存补丁工具使用

程序加了tmd壳&#xff0c;直接脱不方便&#xff0c;程序会弹黄色广告以及加入YY房间的窗口&#xff0c;找到关键代码位置&#xff0c;使用内存工具打补丁。 不良网站&#xff1a; 烦人的提升&#xff0c;关了又会出现&#xff1a; 这是弹黄色网站的函数&#xff0c;用的She…

visual assist x 2406 和 2435,2443 原版安装下载,只要一分

Whole Tomato Visual Assist X v10.9.2443.0 (21 Jan 2022) 完美解决使用问题&#xff0c;支持 C20和vs2022 64位。不是飘云阁版本&#xff0c;只要1分。 下载地址&#xff1a; VisualAssistXv10.9.2443.0-C文档类资源-CSDN文库 Visual Assist X 2435&#xff1a;由于vs2022…

LINGO学习笔记01

极力推荐观看教程作者视频&#xff0c;不止包含知识点&#xff0c;同时包含随堂练习帮助你巩固知识。我自己记的笔记肯定没有视频教程讲的仔细。链接 LINGO可以建立 简单模型 和 基于集合的专业模型 两种模型。 对于LINGO&#xff0c;所有参数默认非负&#xff0c;不区分大小写…

LINGO使用教程(一)

LINGO是用来求解线性和非线性优化问题的简易工具。LINGO内置了一种建立最优化模型的语言,可以简便地表达大规模问题,利用LINGO高效的求解器可快速求解并分析结果。 1.LINGO快速入门 当你在windows下开始运行LINGO系统时,会得到类似下面的一个窗口: 外层是主框架窗口,包…

搜索引擎的索引和搜索

对于网络蜘蛛技术和排序技术请参考作者其它文章[1][2]&#xff0c;这里以Google搜索引擎为例主要介绍搜索引擎的数据索引和搜索过程。 数据的索引分为三个步骤&#xff1a;网页内容的提取、词的识别、标引库的建立。 互联网上大部分信息都是以HTML格式存在&#xff0c;对于索引…

轻松打造自己的站内搜索引擎

很多个人网站的站长都希望为自己的网站建立一个站内搜索引擎&#xff0c;但一不熟悉ASP、PHP、JSP等动态开发技术&#xff0c;另外自己建立站内搜索也需要空间支持相应的动态技术&#xff0c;所以常不得已放弃。其实&#xff0c;何不借用Google打造站内搜索引擎&#xff0c;来方…

搜索引擎SEO

一、定义 提高网站浏览量而做的优化手段。 二、与SEM的对比 &#xff08;1&#xff09;SEM高投入、SEO低投入 &#xff08;2&#xff09;SEM短、效益快&#xff0c;SEO长期投入、增长慢 &#xff08;3&#xff09;新广告法颁布之后SEM广告位减少、竞争压力大 三、衡量流量…

[C++项目] Boost文档 站内搜索引擎(1): 项目背景介绍、相关技术栈、相关概念介绍...

项目背景 Boost库是C中一个非常重要的开源库. 它实现了许多C标准库中没有涉及的特性和功能, 一度成为了C标准库的拓展库. C新标准的内容, 很大一部分脱胎于Boost库中. Boost库的高质量代码 以及 提供了更多实用方便的C组件, 使得Boost库在C开发中会被高频使用 为方便开发者学…

巧用搜索引擎---如何在指定网站中搜索

子曰&#xff1a;“工欲善其事&#xff0c;必先利其器。”在平时工作和学习中&#xff0c;网络上查找各种资料是最浪费时间的。在查资料的时候搜索功能是经常要用到的&#xff0c;常规的做法是在搜索引擎中直接搜索关键词。 比如我想找一下以前写过的一篇关于通信协议的文章。…

Chrome浏览器添加自定义搜索引擎-快速进行站内搜索

在使用Chrome时&#xff0c;设置了默认搜索引擎后&#xff0c;如果要切换搜索引擎比较麻烦。下面介绍一种通过关键字快速切换Chrome搜索引擎的方法。 打开 “设置” --> “搜索引擎” --> “管理搜索引擎” 修改关键字 点击1&#xff0c;修改关键字就可以了。 设置后&a…

站内搜索SITE

有的网站是没有站内搜索框的&#xff0c;这是我们可以利用搜索引擎的站内搜索 例如&#xff0c;JAVA天堂是没有站内搜索的 Java天堂 - Java学习笔记 这是我们可以使用百度或者必应搜索引擎在浏览器地址栏 输入&#xff1a; Servlet实现文件上传&#xff0c;可多文件上传 sit…

创建自己的搜索引擎,利用google进行站内搜索

宽为限 紧用功 功夫到 滞塞通 什么是自定义搜索&#xff1f; Google自定义搜索可以为您的网站&#xff0c;博客或网站集合创建搜索引擎。您可以配置搜索引擎来搜索网页和图像。您可以调整排名&#xff0c;自定义搜索结果的外观&#xff0c;并邀请您的朋友或信任的用户来帮助您…

Google SEO 搜索中心

在公司发展还没有那么成熟的时候&#xff0c;也许你的测试网站是外网可以公开访问的&#xff0c;也许你网站中的机密图片在测试环境&#xff08;不小心上到正式环境&#xff09;却被搜索引擎无情抓取&#xff0c;以及有些内部用户才能使用的网址&#xff0c;你并不想被搜索引擎…

如何指定网站内搜索关键字(借用已有搜索引擎)

目标&#xff1a;某个网站内&#xff0c;输入关键字搜索出相关东西 处境&#xff1a;这个网站开发者自己不去写搜索算法 解决方法&#xff1a;让微软的必应搜索引擎来做这件事&#xff0c;怎么弄呢&#xff0c;就是在必应搜索引擎页面里输入&#xff1a; xx关键字 site:xx网站 …