python爬虫beautifulsoup findall函数详解

article/2025/10/14 5:14:35

测试网站：
http://www.pythonscraping.com/pages/warandpeace.html

内容初探
在这里插入图片描述

有一些奇怪的红绿分类

网页源码介入：
在这里插入图片描述

我们所要做的就是识别<>中的信息，然后提取它后面的内容

基础网络连接代码：

html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
bsObj = BeautifulSoup(html)

短短两行，我们把它变成了“美味汤”的对象

findall函数：

findAll(tag, attributes, recursive, text, limit, keywords)

接下来看一些实际需求：

** 需求1：**找出所有绿色的字
分析：那显然对应的就是tag为span，然后attr为class=‘green’
因此，代码为：

nameList = bsObj.findAll("span", {"class":"green"})
for name in nameList:#print(name)print(name.get_text())

用get_text()去除烦人的<>
结果为：
在这里插入图片描述
得到各种人名

** 需求2**：根据内容text搜索，用limit限制前n个

# text 搜索
nameList = bsObj.findAll(text = "the prince", limit = 2)
print(nameList)

返回结果：
在这里插入图片描述
哈哈，这个没啥意思，因为找出来的只能是the prince，主要试试功能而已

** 需求3：**根据keyword搜索
在这里插入图片描述
所谓的keyword我理解就是attr吧，我们可以看一个例子：

# keyword搜索
allText = bsObj.findAll(id="text")
print(allText[0].get_text())# class 是关键字，要加_
allText = bsObj.findAll(class_="green")
print(allText[0].get_text())

这里的class由于是关键字，所有要加_，实际上keyword确实等价于attr搜索：
在这里插入图片描述

总结：
好啦，今天就初步介绍了一下findall，希望后续可以坚持学习

python爬虫beautifulsoup findall函数详解

findAll(tag, attributes, recursive, text, limit, keywords)

相关文章

正则表达式入门-findall()函数

38 匹配字符串——findall()方法

Qt QLabel样式表总结

QT QLabel中字体行间距怎么设置？

重写QLabel实现图片显示框选截取保存

QLabel 标签

QLabel的使用

QLabel显示图像

QLabel绘制滚动文本

PyQt5 QLabel控件

Qt QLabel详解

Qt之QLabel(属性显示图片显示动图显示富文本信息信号)

Qt扫盲-QLabel使用总结

QT常用控件——QLabel标签控件

JavaScript 弹出对话框3种方式

js的弹出框

JavaScript弹出对话框的三种方法

JavaScript弹出框

JS弹出对话框的三种方式

JavaScript弹出对话框的三种方式-alert()-confirm()-prompt()