【Java】Jsoup爬虫快速入门案例

article/2025/9/28 13:28:33

1、前言

该技术博客是根据B站狂神说Java教程的笔记总结,希望能为大家带来帮助!

2、Jsoup实战案例

爬虫可以理解为爬取数据,所谓爬取数据就是:

获取请求返回的页面信息,筛选出我们想要的数据

如果想要爬取数据,需要通过jsoup,所以首先我们需要创建一个maven项目,在maven中导入jsoup依赖jar包:

<!--jsoup:用于解析网页。不能爬取电影、音乐等-->
<!--如果想要爬取电影音乐资源,需要导入tika依赖-->
<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.13.1</version>
</dependency>

我们使用京东页面进行数据爬取展示,网址如下:

http://search.jd.com/Search?keyword=java
在这里插入图片描述

数据爬取案例代码展示如下:

//创建实体类,用于封装页面中需要爬取的数据
public class Content {private String title;private String img;private String price;//可以自己酌情添加属性public Content(String title, String img, String price) {this.title = title;this.img = img;this.price = price;}@Overridepublic String toString() {return "Content{" +"title='" + title + '\'' +", img='" + img + '\'' +", price='" + price + '\'' +'}';}
}
=================================================================================
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;public class HtmlParseUtil {public static void main(String[] args) throws Exception {//进行测试,调用方法,输入想要爬取数据的关键字HtmlParseUtil util = new HtmlParseUtil();List<Content> list = util.parseJD("三国演义");for (Content content : list) {System.out.println(content);}}public List<Content> parseJD(String keywords) throws Exception {//获取请求,我们使用京东页面作为演示例子:http://search.jd.com/Search?keyword=[keywords]//注意:爬取数据过程需要联网String url = "http://search.jd.com/Search?keyword=" + keywords;//得到url后,解析网页,该 Document对象 就是浏览器 Document对象Document document = Jsoup.parse(new URL(url), 30000);Element element = document.getElementById("J_goodsList");//获取所有的li元素Elements elements = element.getElementsByTag("li");//创建ArrayList集合,将所有的查询对象添加到集合中ArrayList<Content> goodsList = new ArrayList<>();//获取li元素中的内容,这里的el就是每一个li元素for (Element el : elements) {//关于这种图片特别多的网站,所有的图片都是延时加载的//代码中的p-price,p-name等属性名是通过手动审查网页元素得到String img = el.getElementsByTag("img").eq(0).attr("data-lazy-img");String price = el.getElementsByClass("p-price").eq(0).text();String title = el.getElementsByClass("p-name").eq(0).text();goodsList.add(new Content(title, img, price));}return goodsList;}
}

输出结果如下:

Content{title='三国演义(套装上下册)(全二册)(中国古典文学读本丛书,1-9年级必读书单) 三国演义(套装上下册)(全二册)(中国古典文学读本丛书,1-9年级必读书单)', img='//img10.360buyimg.com/n1/s200x200_jfs/t1/54594/9/2803/246916/5d0a1635E98b4dc52/095f4cc72141902f.jpg', price='¥32.00'}
Content{title='三国演义(上下册)(四大名著原著大字本:《语文》推荐阅读丛书 ) 四大名著大字本,教育部统编语文推荐阅读;内容经典,字大行疏,阅读舒适(随书附赠:《三国演义地图》+《三国时期大事年表》)', img='//img11.360buyimg.com/n1/s200x200_jfs/t1/56082/2/5824/222939/5d36afd7E6dabc2e3/79b0dbeec5f3a45d.jpg', price='¥67.30'}
Content{title='完整无删减四大名著全套原著正版 初中生版三国演义西游记水浒传红楼梦正版注音注释小学生四大名著文言文', img='//img12.360buyimg.com/n1/s200x200_jfs/t1/162155/1/15679/301700/6065278aE99eddbea/601d9628cfa862f2.jpg', price='¥188.00'}
Content{title='三国演义(新版,易中天推荐版本) 以毛本为底本,结合明代嘉靖本、《三国志》等综合汇校,恢复罗贯中笔下丰富立体的重要人物形象。原创绘制53幅战役细节图轻松了解战争全貌。', img='//img10.360buyimg.com/n1/s200x200_jfs/t1/167308/5/3682/285853/60094d48E69a6783b/1585b58c6bf9a577.jpg', price='¥128.00'}
Content{title='附赠地图三国演义(上下) 原著四大名著完整版120回带注解 适用中学生阅读文言文白话文 人民文学出版 附赠人物关系图点击查看三国演义(上下)+红楼梦(上下)共四册,原版原著无删减人民文学出版三国演义(上下)+红楼梦(上下)共四册,原版原著无删减', img='//img11.360buyimg.com/n1/s200x200_jfs/t1/167460/36/6652/649699/60305acdEfa62a6fd/2fe9b6e211bc8bee.png', price='¥23.80'}
Content{title='凯叔三国演义全集1-16(套装共16册,故事大王凯叔白话文版三国演义) 3000万家长喜爱的凯叔讲三国演义,同名音频节目全网热销10万单。 100册以上团购优惠联系电话4006186622', img='//img10.360buyimg.com/n1/s200x200_jfs/t1/62383/20/10571/473164/5d7ef051E573df628/47e167078abfcc97.jpg', price='¥523.50'}
Content{title='三国演义幼儿美绘本 套装全10册中国四大名著彩绘注音版有声伴读 3-6岁儿童绘本幼小衔接包邮 画给3-8岁孩子的中华经典名著,大字注音,有声伴读,41款夸张角色,600余张精美插图,29个三国问答,10大智力挑战,以一种超有趣的方式亲近名著经典。', img='//img12.360buyimg.com/n1/s200x200_jfs/t1/156113/8/12402/404575/60408d3dE64dbb64c/88127e66c1933e1e.jpg', price='¥146.60'}
Content{title='三国演义连环画60册 函装蓝皮珍藏老版怀旧四大名著连环画小人书全套经典儿童故事绘本漫画课外读物上海人民美术出版社 四大名著连环画小人书全套经典儿童故事绘本漫画课外读物,经典文学连环画小人书重温儿时经典64开 100册以上团购优惠联系电话4006186622', img='//img11.360buyimg.com/n1/s200x200_jfs/t24994/176/468629036/282859/9632737a/5b70efffNab3a910a.jpg', price='¥140.10'}
Content{title='三国演义(套装上下册)(四大名著珍藏版) 三国演义(套装上下册)(四大名著珍藏版)', img='//img11.360buyimg.com/n1/s200x200_jfs/t14908/140/1805436643/298667/d338c47b/5a5c51aeN82065441.jpg', price='¥149.90'}
Content{title='三国演义(上下)(《语文》推荐阅读丛书 人民文学出版社) 100册以上团购优惠联系电话4006186622三国演义/四部古典/人民文学出版社2018版/版本完善,编校精良,助力成长', img='//img14.360buyimg.com/n1/s200x200_jfs/t1/129878/18/7185/159574/5f38b2d0E1c1977ae/8eb7021e61ba19c0.jpg', price='¥48.00'}
Content{title='四大名著全套小学生版原著正版青少年儿童版白话文水浒传红楼梦西游记三国演义小学生世界名著小说 四大名著全套小学生版原著正版青少年儿童版白话文水浒传红楼梦西游记三国演义小学生世界名著小说', img='//img12.360buyimg.com/n1/s200x200_jfs/t1/120726/1/15957/259183/5f9394e7E68a82bea/86c17acf56bbe577.png', price='¥48.80'}
Content{title='四大名著青少版 三四五六年级课外书 儿童读物10-14岁 美绘插图三国演义水浒传红楼梦西游记原著 正版 618限时钜惠!全场领券满99-10!', img='//img14.360buyimg.com/n1/s200x200_jfs/t1/186871/10/9576/260100/60d0457dE654a5a34/667edb41056abfb6.jpg', price='¥148.00'}
Content{title='精装四大名著全套原著版正版少儿青少年版原版学生版全集套装4中国古典文学历史书籍小说三国演义', img='//img14.360buyimg.com/n1/s200x200_jfs/t16447/238/1022153067/404527/1e971c4b/5a4d8323N8d188fcc.jpg', price='¥98.00'}
Content{title='三国演义( 精装四大名著 足本典藏 无障碍阅读 注音解词释疑) 严格依据三国演义原著,文中加入刻本绣像,与原文相得益彰,不仅美观,还能增进对文章的理解。百年老舍商务印书馆品质保证 100册以上团购优惠联系电话4006186622', img='//img14.360buyimg.com/n1/s200x200_jfs/t5722/315/350498085/369749/4653240c/591ebf98Nff38b7d6.jpg', price='¥27.00'}
Content{title='中国四大古典名著连环画 礼盒套装全136册 徐宏达 西游记水浒传三国演义红楼梦连环画小人书老版怀旧经典收藏版 名家图画四大名著数代国人的审美启蒙读物,礼盒套装全136册徐宏达西游记水浒传三国演义红楼梦连环画小人书老版怀旧经典收藏版', img='//img10.360buyimg.com/n1/s200x200_jfs/t1/10797/1/6724/87409/5c24083cE09cb99d1/d2ea2265385befbe.jpg', price='¥260.00'}
Content{title='中国古典文学读本丛书:四大名著权威定本(红楼梦+三国演义+水浒传+西游记)(套装共8册) 中国古典文学读本', img='//img13.360buyimg.com/n1/s200x200_jfs/t1/52144/5/2758/238626/5d0a157aE9c12b5e6/e08cae235dd1456a.jpg', price='¥159.70'}
Content{title='李鹏飞给孩子讲三国演义(全6册,赠考点一本通、三国演义主要人物图谱、音频课) 北京大学教授、中国古代文学专家——李鹏飞,带孩子真正读懂《三国演义》,提升语文素养,掌握应试技能!罗振宇、张泉灵、高考语文名师申怡等推荐阅读!', img='//img11.360buyimg.com/n1/s200x200_jfs/t1/172825/32/6008/169826/60823eb2E55f122ef/a035ecf466ef5bbf.jpg', price='¥285.10 ¥278.00'}
Content{title='三国演义(套装上下册) 中国古代小说名著插图典藏系列', img='//img12.360buyimg.com/n1/s200x200_jfs/t1/78862/6/9172/488636/5d6e05d4E31443e8d/a14ff6dd5177bae0.jpg', price='¥32.40'}
Content{title='大字足本无删减版 中国四大名著三国演义水浒传西游记红楼梦全套原著正版文言文学生无障碍阅读珍藏版', img='//img11.360buyimg.com/n1/s200x200_jfs/t1/118752/11/2179/155846/5ea00ef2E0a2d8de1/f8ebb29d0ce607ed.jpg', price='¥228.00'}
Content{title='四大名著(全四册 精装彩色插图珍藏本 附赠精美书签)西游记+红楼梦+水浒传+三国演义 完整无删减,每册书后均附有人物关系图,并附赠人物关系图小册子。古典绣像插图,生动形象。无障碍阅读,注音释义,通俗易懂。锁线装订,结实耐用。', img='//img10.360buyimg.com/n1/s200x200_jfs/t1/141487/16/14134/526198/5faba12aEd0bc4168/e09ee74a3e799e33.jpg', price='¥196.20'}
Content{title='三国演义/快乐读书吧五年级下册无障碍阅读学生版儿童文学四大名著(无障碍阅读彩插本) 儿童文学课外阅读精读版。新老版本随机发货,封面不同内容一致100册以上团购优惠联系电话4006186622', img='//img12.360buyimg.com/n1/s200x200_jfs/t1/114747/16/13471/118607/5f238c23Ec03fb43b/2e8c86a16d8db852.jpg', price='¥18.60'}
Content{title='漫画中国古典名著:西游记 三国演义 水浒传 红楼梦(套装共4册) 薇娅推荐100册以上团购优惠联系电话4006186622', img='//img11.360buyimg.com/n1/s200x200_jfs/t1/123178/6/19726/269260/5fbb5345E8c9692bc/bf9397b8dcd1cea6.jpg', price='¥120.00'}
Content{title='学生基础阅读书目·中国古典文学经典名著·适合青少年阅读白话美绘版·四大名著·上下卷:三国演义 100册以上团购优惠联系电话4006186622', img='//img13.360buyimg.com/n1/s200x200_jfs/t19756/212/1271659156/246824/a804b94d/5ac429aeN85a04c72.jpg', price='¥79.80'}
Content{title='三国演义 精装硬壳 原著无删减 文白对照 全注全译 中国古典小说经典名著 中国文联 三国演义 精装硬壳 原著无删减 文白对照 全注全译 中国古典小说经典名著 中国文联', img='//img11.360buyimg.com/n1/s200x200_jfs/t1/129232/3/18302/215793/5faf39d0E3c8f534e/d5b820bd609dbb5a.jpg', price='¥18.80'}
Content{title='三国演义 原著青少年版高中成人原文无删减无障碍学生版原文注释生僻字注音解释 精装', img='//img10.360buyimg.com/n1/s200x200_jfs/t1/3907/11/9084/513022/5bab444bEa78e1a20/9296fc46957b19b5.png', price='¥26.10'}
Content{title='四大名著青少版:西游记+红楼梦+水浒传+三国演义 快乐读书吧五年级下册阅读 新老版本随机发智慧熊图书 汪峰推荐,章节导读,增加读后感,增加成长启示和写作积累单元,书末加入知识考点查漏补缺。培养孩子坚强品格。五年级单品100册以上请打优惠电话4006186622', img='//img14.360buyimg.com/n1/s200x200_jfs/t1/157616/18/17357/297951/606ea2acE0ec53a40/ba72fb91679e56c3.jpg', price='¥44.40'}
Content{title='三国演义/全本无删减 无障碍阅读 五年级下必读 (赠京师大讲堂视频解析) 北京市特级教师视频讲解,为学生扫清阅读障碍。北师大文学博士王海洋通过导读、注释、评析解读整本书,帮学生领悟名著精髓,经典版本精心呈现。 100册以上团购优惠联系电话4006186622', img='//img11.360buyimg.com/n1/s200x200_jfs/t1/132370/21/9433/467397/5f57379fEb646e7ae/dbcfd7eb92f3876f.jpg', price='¥41.10'}
Content{title='三国演义(青少年无障碍阅读版 新课标必读) 白话文,生僻字注音,任务关系图,好读易懂的四大名著 100册以上团购优惠联系电话4006186622', img='//img14.360buyimg.com/n1/s200x200_jfs/t3331/245/1086508122/304733/9b91e634/581c4edbN814ce19f.jpg', price='¥29.80'}
Content{title='四大名著全套小学生版注音版4册西游记三国演义水浒传红楼梦完整版原著正版儿童版带拼音青少年版小学课外书 学生少儿课外阅读书籍学校指定小学生版加厚注音全套4册', img='//img13.360buyimg.com/n1/s200x200_jfs/t1/135995/26/19472/319879/5fd46ec0Efb7e3f01/8b8a42d1f5279439.jpg', price='¥129.80'}
Content{title='全套四大名著儿童版注音原著西游记三国演义红楼梦水浒传青少版一年级二年级课外书7-10岁阅读儿童书籍 四大名著 全套四大名著儿童版注音原著西游记三国演义红楼梦水浒传青少版一年级二年级课外书7-10岁阅读儿童书籍 四大名著', img='//img11.360buyimg.com/n1/s200x200_jfs/t1/186710/18/4064/225439/60a4bbf3E2cd54784/399caed6347035a7.jpg', price='¥48.00 ¥45.60'}

http://chatgpt.dhexx.cn/article/0tDwJu6B.shtml

相关文章

android爬虫框架jsoup,Android笔记之JSoup爬虫入门

前言 闲扯一些没用的&#xff0c;写这篇文章之前是有点私心的&#xff0c;因为之前评论某简书大v的文章是鸡汤&#xff0c;瞬间被拉黑&#xff0c;连个解释和说明的机会都没有&#xff0c;文章语言干涩&#xff0c;内容平平&#xff0c;于是就好奇到底是些什么样的人喜欢和吹捧…

Java的Jsoup爬虫

Java的Jsoup爬虫&#xff0c;爬携程酒店评分&#xff0c;保存数据库中 前言一、Jsoup爬虫pom二、逻辑代码部分1.首先我们要先确定爬取的东西&#xff0c;这边我就以携程的酒店评分为例子。2.Jsoup进行解析具体要求爬的内容3.接下来我们就是将爬取的数据存入数据库中 总结 前言 …

使用Jsoup爬虫爬取相关图片

一、Jsoup概述 jsoup 是一款Java 的HTML解析器&#xff0c;可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API&#xff0c;可通过DOM&#xff0c;CSS以及类似于jQuery的操作方法来取出和操作数据。 主要功能&#xff1a; 1. 从一个URL&#xff0c;文件或字符串…

jsoup爬虫实战详解之新浪

** jsoup爬虫实战详解之新浪 ** 今天分享一个之前困扰了一段时间的关于jsoup爬取新浪网页信息的踩坑总结。 在实现以上功能的之前我门首先要了解两个重点&#xff1a;1.关于jsoup的爬取细节以及教程&#xff0c;爬取时所要了解jsoup的相关标签&#xff1a;具体的自己大家感兴…

Java JSOUP爬虫学习分享

昨天从狂神大佬那学习了如何用jsoup爬去网站数据&#xff0c;现在整理了一下给大家分享一下。 先创建一个名叫JsoupPojo的实体类用来装入数据。 Data public class JsoupPojo {private String src;private String name; } 下面是将用来爬取的方法封装成了一个工具类 Compon…

java jsoup爬虫

前言&#xff1a;在日常开发中&#xff0c;我们必定是与我们的数据源打交道&#xff0c;我们的数据源无非就那么几个 1.数据库2.爬虫数据 3.第三方系统交互&#xff0c;这里介绍java 中网页版的爬虫jsoup的使用 1.首先导入我们的jar包 maven坐标如下 org.jsoup jsoup 1.13.1 c…

Jsoup爬虫并解析网页

Jsoup爬虫并解析网页 京东搜索 java&#xff0c;爬取有关java的商品信息 1、获取请求 String url"https://search.jd.com/Search?keywordjava";2、解析网页。&#xff08;Jsoup返回的Document对象就是浏览器的Document对象&#xff09; 所有js中操作Document对象的…

Jsoup爬虫入门实战

一、Jsoup介绍 jsoup 是一款基于 Java 的HTML解析器&#xff0c;它提供了一套非常省力的API&#xff0c;不但能直接解析某个URL地址、HTML文本内容&#xff0c;而且还能通过类似于DOM、CSS或者jQuery的方法来操作数据&#xff0c;所以 jsoup 也可以被当做爬虫工具使用。 相关…

Jsoup爬虫实例

一、简介 jsoup 是一款Java 的HTML解析器&#xff0c;可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API&#xff0c;可通过DOM&#xff0c;CSS以及类似于jQuery的操作方法来取出和操作数据。&#xff08;来源百度&#xff09; 二、准备 首先你需要找到一个你…

使用Jsoup实现网络爬虫

一、什么是Jsoup&#xff1f; jsoup是一款Java的HTML解析器、可以通过URL获取DOM元素并解析&#xff0c;也可对HTML文本内容进行解析&#xff0c;jsoup提供了一套非常简单的方法&#xff0c;类似于CSS、JQuery的操作方法对元素或者是数据进行操作。 二、Jsoup的特点及作用 从…

Java学习笔记:爬虫-用Jsoup解析网页

什么是爬虫 1、爬虫&#xff1a;程序代替人的人工操作&#xff0c;自动获取网页内容&#xff0c;并且从其中提取出来有价值信息。 2、原始&#xff1a;调用Http的类向服务器发出请求&#xff0c;获得HTML&#xff0c;然后用正则表达式等去分析。缺点&#xff1a;难度高。 3、…

jsoup爬虫

文章目录 1、jsoup爬虫简单介绍2、相关代码2.1导入pom依赖2.2、图片爬取2.3、图片本地化 3、百度云链接爬虫 1、jsoup爬虫简单介绍 jsoup 是一款 Java 的HTML 解析器&#xff0c;可通过DOM&#xff0c;CSS选择器以及类似于JQuery的操作方法来提取和操作Html文档数据。 这两个…

解析卷积神经网络学习笔记——魏秀参

第二章 CNN基本部件 1.理解批处理和随机梯度下降&#xff1a; 训练模型时随机选取n个训练样本作为一个batch&#xff08;批输入&#xff09;&#xff0c;那么经过设计好的卷积神经网络就可以输出n个预测值&#xff0c;对这n个预测值求其损失函数&#xff08;注意损失函数绝不是…

【干货】卷积神经网络Alex-Net、VGG-Nets、Network-In-Network案例分析

目录 Alex-Net 网络模型 VGG-Nets 网络模型 Network-In-Network 本文将以 Alex-Net、VGG-Nets、Network-In-Network 为例&#xff0c;分析几类经典的卷积神经网络案例。 在此请读者注意&#xff0c;此处的分析比较并不是不同网络模型精度的“较量”&#xff0c;而是希望读者…

2018年国内十大技术突破:22纳米光刻机、大型航天器回收

https://www.toutiao.com/a6639830026990649860/ 2018-12-28 08:11:39 盘点这一年的核心技术&#xff1a;22纳米光刻机、450公斤人造蓝宝石、0.12毫米玻璃、大型航天器回收、盾构机“弃壳返回”、远距离虹膜识别……哪一个不夺人眼球&#xff01; 1 智能水刀削铁断金 10月份的…

AI的螺旋式上升?今日头条AI掌门人马维英离职,“重返”清华从事培育科研工作

2020-07-29 01:22:49 作者 | 蒋宝尚 编辑 | 丛 末 据媒体报道&#xff0c;字节跳动副总裁、人工智能实验室主任马维英离职&#xff0c;将到清华大学智能产业研究院任职&#xff0c;加入正在筹备该产业院的原百度总裁张亚勤团队。 对于马维英离职一事&#xff0c;字节跳动也做…

超全深度学习细粒度图像分析:项目、综述、教程一网打尽

在本文中&#xff0c;来自旷视科技、南京大学和早稻田大学的研究者对基于深度学习的细粒度图像分析进行了综述&#xff0c;从细粒度图像识别、检索和生成三个方向展开论述。此外&#xff0c;他们还对该领域未来的发展方向进行了讨论。 &#xff08;CV&#xff09;是用机器来理解…

机器学习防止模型过拟合的方法知识汇总

目录 LP范数L1范数L2范数L1范数和L2范数的区别DropoutBatch Normalization归一化、标准化 & 正则化Reference 其实正则化的本质很简单&#xff0c;就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。…

一文读懂机器学习中的正则化

正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。当我们用较为复杂的模型拟合数据时,容易出现过拟合现象,导致模型的泛化能力下降,这时我们就需要使用正则化,降低模型的复杂度。本文总结阐释了正则化的相关知识点,帮助大家更好的理解正则化这一概念。 目录 L…

漆远离职阿里加盟复旦!大牛纷纷回归学界,大厂AI名存实亡?

来源丨新智元 编辑丨小咸鱼 好困 【导读】蚂蚁金服原副总裁、AI团队负责人漆远已于近日离职&#xff0c;出任复旦大学「浩清」教授&#xff0c;复旦人工智能创新与产业研究院院长。将从事深度学习、强化学习等人工智能领域的前沿研究和应用。 那个支付宝背后的AI大牛&#xff0…