Jsoup爬虫入门实战

article/2025/9/28 14:13:23

一、Jsoup介绍

jsoup 是一款基于 Java 的HTML解析器，它提供了一套非常省力的API，不但能直接解析某个URL地址、HTML文本内容，而且还能通过类似于DOM、CSS或者jQuery的方法来操作数据，所以 jsoup 也可以被当做爬虫工具使用。

二、实战

2.1、创建一个springboot项目，并导入依赖

<!--添加fastjson依赖--><dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>1.2.7</version></dependency><!--添加Jsoup依赖--><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.13.1</version></dependency>

2.2、创建实体类，用于封装商品信息

@Data
@AllArgsConstructor
@NoArgsConstructor
public class Content {private String title;private String img;private String price;// 可以自己添加属性完善功能
}

2.3、写一个工具类，解析网页

public static List<Content> parseJD(String keyword) throws IOException {/// 使用前需要联网// 请求urlString url = "http://search.jd.com/search?keyword=" + keyword;// 1.解析网页(jsoup 解析返回的对象是浏览器Document对象)Document document = Jsoup.parse(new URL(url), 30000);// 使用document可以使用在js对document的所有操作// 2.获取元素（通过id）,id自己查网页Element j_goodsList = document.getElementById("J_goodsList");// 3.获取J_goodsList ul 每一个Elements lis = j_goodsList.getElementsByTag("li");// System.out.println(lis);// 4.获取li下的 img、price、name// list存储所有li下的内容List<Content> contents = new ArrayList<Content>();for (Element li : lis) {// 由于网站图片使用懒加载，将src属性替换为data-lazy-imgString img = li.getElementsByTag("img").eq(0).attr("data-lazy-img");// 获取li下 第一张图片String name = li.getElementsByClass("p-name").eq(0).text();String price = li.getElementsByClass("p-price").eq(0).text();// 封装为对象Content content = new Content(name,img,price);// 添加到list中contents.add(content);}// System.out.println(contents);// 5.返回 listreturn contents;}

2.4、测试

// 测试一下public static void main(String[] args) throws IOException {HtmlParseUtil.parseJD("java").forEach(System.out::println);}

成功爬取到java相关信息的数据

在这里插入图片描述

如果有兴趣的小伙伴，也可以和ElasticSearch联动，创建一个索引将爬取的数据入在索引库中，当做搜索库！

Jsoup爬虫入门实战

一、Jsoup介绍

相关概念

二、实战

2.1、创建一个springboot项目，并导入依赖

2.2、创建实体类，用于封装商品信息

2.3、写一个工具类，解析网页

2.4、测试

相关文章

Jsoup爬虫实例

使用Jsoup实现网络爬虫

Java学习笔记：爬虫-用Jsoup解析网页

jsoup爬虫

解析卷积神经网络学习笔记——魏秀参

【干货】卷积神经网络Alex-Net、VGG-Nets、Network-In-Network案例分析

2018年国内十大技术突破：22纳米光刻机、大型航天器回收

AI的螺旋式上升？今日头条AI掌门人马维英离职，“重返”清华从事培育科研工作

超全深度学习细粒度图像分析：项目、综述、教程一网打尽

机器学习防止模型过拟合的方法知识汇总

一文读懂机器学习中的正则化

漆远离职阿里加盟复旦！大牛纷纷回归学界，大厂AI名存实亡？

正则化方法归纳总结

阿里副总裁、达摩院自动驾驶负责人王刚离职！

机器学习防止模型过拟合方法总结

CV还要更热闹！旷视刚宣布4.6亿美元融资，商汤：新一轮年内完成

LaTeX 有哪些「新手须知」的内容?

《解析深度学习》部分笔记

新型计算机离我们还有多远

Must Know Tips/tricks in DNN