htmlUnit的读取js渲染的页面

article/2025/10/14 21:46:49

htmlUnit的读取js渲染的页面

我这边有个这么的需求,要求前端每次上版本的时候,有一个版本号。然后后端去爬前端,比较禅道的版本发布计划,如果发布计划和生产上的版本号不一致,就告警。

这个跟后端的jar包,每次打包,读取该分支的git号,然后打包到jar包一样,这样每次发版就知道当前的版本是什么版本了。

前端那边摸索出来了,但是读取的时候出了点问题。前端提供的页面,如果用浏览器去浏览,是很正常的。然后用httpclient去读取,发现没有对应的标签。

很明显,这个是因为,这个结构是js渲染后生成的,这样的话,就得换工具了。

百度了下,发现java用的是htmlunit。

工具类是这样。

public class MyHtmlUnitHelper {/*** 设置一个无头浏览器,抓取动态渲染页面* @param requestUrl 要解析页面URL地址* @return 返回Document对象*/public static Document accordingToURLGetBrowserHtml(String requestUrl) throws InterruptedException, MalformedURLException {final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_ESR);//新建一个模拟谷歌Chrome浏览器的浏览器客户端对象webClient.getOptions().setThrowExceptionOnScriptError(false);//当JS执行出错的时候是否抛出异常, 这里选择不需要webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);//当HTTP的状态非200时是否抛出异常, 这里选择不需要webClient.getOptions().setActiveXNative(false);//不启用ActiveXwebClient.getOptions().setCssEnabled(false);//是否启用CSS, 因为不需要展现页面, 所以不需要启用webClient.getOptions().setJavaScriptEnabled(true); //很重要,启用JSwebClient.getOptions().setDownloadImages(false);//不下载图片webClient.getOptions().setActiveXNative(false);webClient.setAjaxController(new NicelyResynchronizingAjaxController());//很重要,设置支持AJAXwebClient.getOptions().setUseInsecureSSL(true);webClient.setWebConnection(new WebConnectionWrapper(webClient) {@Overridepublic WebResponse getResponse(WebRequest request) throws IOException {WebResponse response = super.getResponse(request);return response;}});HtmlPage page = null;try {page = webClient.getPage(requestUrl);//尝试加载上面图片例子给出的网页} catch (Exception e) {e.printStackTrace();}finally {webClient.close();}webClient.waitForBackgroundJavaScript(30000);//异步JS执行需要耗时,所以这里线程要阻塞30秒,等待异步JS执行结束String pageXml = page.asXml();//直接将加载完成的页面转换成xml格式的字符串Document parse = Jsoup.parse(pageXml);
//        Elements big = parse.getElementsByTag("big");
//        String text = big.text();
//        System.out.println(parse);return parse;}public static void main(String[] args) throws InterruptedException, MalformedURLException {Document document = MyHtmlUnitHelper.accordingToURLGetBrowserHtml("https://xjczgl.zjxj.gov.cn/#/version");Elements big = document.getElementsByTag("big");String text = big.text();System.out.println(text);}
}
      <!--jsoup 是一款 Java 的HTML 解析器--><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.13.1</version></dependency><!--模拟一个无头浏览器--><dependency><groupId>net.sourceforge.htmlunit</groupId><artifactId>htmlunit</artifactId><version>2.60.0</version></dependency>

这个工具能模拟浏览器,执行js。然后将读取到的内容用html解析器jsoup去读取。这样我就能读取到对应的版本号了。

但是又出现了一个问题,我发现本地的前端能爬到,而生产的却爬不到,然后我看了下,本地执行js是没问题的,而生产的js执行却有问题。

为啥?本地和生产的区别,无非就是nginx。是不是nginx的gzip的原因?

因为开启了gzip,然后导致js执行有问题,然后我改了下测试的nginx,关闭了gzip,再去爬,记过还是js执行失败。这我就抓瞎了,为什么我本地能执行成功,生产却执行失败。是字符集还是换行符的问题?

我看了下报错

很明显,是js执行错误。那就debug吧。

emm,很清楚了,就是执行这个js的时候,这个js里面有特殊字符。估计就是换行符了。

那怎么办呢?

要么改js,要么就读取的时候,替换换行符了。

但是我感觉不太对,为什么我非得读动态生成的版本号。

我直接让前端给我提供一个json文件,我读取静态的json文件就好。

一了百了。


http://chatgpt.dhexx.cn/article/foplCkEq.shtml

相关文章

HtmlUnit

HtmlUnit是什么&#xff1f;看下介绍&#xff1a; A java GUI-Less browser, which allows high-level manipulation of web pages, such as filling forms and clicking links; just getPage(url), find a hyperlink, click() and you have all the HTML, JavaScript, and A…

HtmlUnit使用

htmlunit 是一款开源的java 页面分析工具&#xff0c;读取页面后&#xff0c;可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行&#xff0c;被誉为java浏览器的开源实现。是一个没有界面的浏览器&#xff0c;运行速度迅速。是junit的扩展之一&#xff0c;它采用…

【转】 HtmlUnit简介

HtmlUnit简介&#xff1a; 引自 http://www.javaeye.com/topic/166702 HtmlUnit 是 JUnit 的扩展测试框架之一。HtmlUnit 将返回文档模拟成 HTML&#xff0c;这样您便可以直接处理这些文档了。HtmlUnit 使用例如 table、form 等标识符将测试文档作为 HTML 来处理。它同样需要遵…

HtmlUnit(Java) - 快速入门学习 - 无界面浏览器

文章目录 1. 概述2. 注意2.0 js解析问题2.1 关闭HtmlUnit日志 3. 使用3.1 抓取IT之家周榜内容 - 单页面3.2 抓取IT之家周榜第九篇文章的内容 - 双页面3.3 模拟用户操作 - &#xff08;这个功能个人感觉非常非常的鸡肋&#xff0c;只能用于非常简单的JS&#xff0c;但是一般网站…

【零基础】快速入门爬虫框架HtmlUnit

迅速的HtmlUnit htmlunit是一款开源的web页面分析工具&#xff0c;理论上来说htmlunit应用于网页的自动化测试&#xff0c;但是相对来说更多人使用它来进行小型爬虫的快速开发。使用htmlunit进行爬虫开发不仅是其运行速度快&#xff0c;更重要的是此框架上手更为容易&#xff0…

保研之路——哈深计算机预推免

哈深计算机预推免 个人情况高校复试参与情况哈工深计算机学院直硕&#xff08;7.20&#xff09;结语 嗯&#xff01;抱着不白花这么多路费住宿费的初衷准备写一个保研经验贴&#xff0c;希望学弟学妹少花点钱吧orz 我的战术大概是只要学校给我发了邀请我就去&#xff08;除了时…

哈工大计算机学院统一复试划线,哈工大计算机专业,复试比例101%,擦线党没戏了...

原标题&#xff1a;哈工大计算机专业&#xff0c;复试比例101%&#xff0c;擦线党没戏了 这几天哈工大各院系公布了复试线及复试名单&#xff0c;其中「计算机学院」的复试考生比例居然是101%。 哈工大2020年计算机专业的考研复试线为320分(学术学位)&#xff0c;以及专业学位的…

【2024考研】哈工大计算机考研854会改成408吗?优缺点分析?怎么复习?哈工大卓越工程师学院点击就送吗?

文章目录 1.哈工大计算机考研专业课的发展历史2.哈工大卓越工程师学院点击就送吗&#xff1f;3.哈工大计算机854会改成408吗&#xff1f;4.哈工大计算机854的优缺点分析4.1 优点4.2 缺点 5.哈工大计算机854怎么复习&#xff1f;5.1 计算机系统(CSAPP)复习指导5.2 计算机网络复习…

【考研】哈尔滨工业大学计算机考研854复习资料

哈尔滨工业大学计算机考研854复习资料 0. 考研初试&复试经验贴1. 初试专业课复习资料资源1.1 复习资料下载1.2 复习资料清单 2. 初试专业课复习资料使用指南2.1 CSAPP资料2.2 数据结构资料2.3 计算机网络资料 更新历史&#xff1a; 2022年4月22日完成初稿2022年5月7日加入…

计算机排名哈工大第三,国内计算机高校排名:哈工大稳坐第2,浙江大学第3,西电第8...

QS世界大学计算机H指数(H指数为混合量化指标&#xff0c;可用于评估研究人员的学术产出量和学术产出水平)前50名中&#xff0c;中国有9所(包括香港大学3所)上榜&#xff0c;前100名中有清华大学、哈工大学、浙江大学等14所世界一流大学建设高校&#xff0c;学校有西安电子科技大…

哈工大深圳计算机就业质量报告,多所高校公布毕业生平均年薪,南京大学和哈工大(深圳)数据亮眼...

原标题:多所高校公布毕业生平均年薪,南京大学和哈工大(深圳)数据亮眼 对于高中学子而言,在将来报考大学时,除了根据自己的兴趣爱好之外,还比较关注对应高校的就业率以及就业质量。毕竟将来大学毕业后还是要走向社会就业的。所以就业后的薪资待遇就成了大家乐意关注的一个点…

哈工大2021秋机器学习期末试题

哈工大2021秋机器学习期末试题 刚刚经历了机器学习复习和考试&#xff0c;这过程简直是太折磨了。 这门课的期末考试往年题还是很有参考价值的。所以我在考试的时候抽了点时间把期末题记了一下&#xff0c;希望能对学弟、学妹&#xff08;如果有的话&#xff09;考前复习有所…

哈尔滨工程大学计算机学院保研政策,哈工大保研条件(哈工大2019保研政策)

哈工大保研条件(哈工大2019保研政策) 2020-05-08 10:50:43 共10个回答 去年保研的确实增加了,主要是总校的增加了(40%多),深圳和威海的基本上变化不大,保研率没有超过40%.但是值得特别注意的是,复试中取消了前25%免除笔试的原则.以至于好多总校和威海前25%的同学虽进入复试,却因…

2020哈工大(威海)计算机夏令营面试

2020哈工大威海计算机夏令营面试 6月底收到哈工大(威海)的入营通知&#xff0c;当时我正在参加中南大学的夏令营&#xff0c;因为我校往届也有好多学长学姐保研到哈威&#xff0c;所以入营概率相对较大&#xff0c;也算是我夏令营拿到的为数不多的入营&#xff0c;另外三个分别…

哈工程计算机系保研率,武汉理工VS哈工程,20保研率哈工程高,哪所值得考?学长精准分析...

对于国内的很多工科高校&#xff0c;由于主打的专业都是国民经济不可或缺的专业&#xff0c;但由于近几年实体经济不景气&#xff0c;很多考生都转而报考计算机相关专业、财经类专业&#xff0c;以前很吃香的航空航天类、电气类、材料类专业都不再受热捧&#xff0c;但这类学校…

哈师大计算机学院宿舍,新生攻略|哈师大所有的“秘密”都在这了

原标题:新生攻略|哈师大所有的“秘密”都在这了 你好,我是哈师大17级的新生,我想全面的了解一下咱们学校,应该去哪了解呀? 这你可算是问对人了,听说最近哈尔滨师范大学学生会的官方微信平台出了非常全的新生攻略呢,快关注它们的公众号(hsdxsh)看看吧! 哇!这么棒!我要…

2020哈工程上岸初复试经验

2020哈工程上岸初复试经验 写在前面&#xff1a; 2020年注定是在研究生考试中被记住的一年&#xff0c;这一年考研的同学们都经历了太多的考验&#xff0c;有幸运的&#xff0c;也有不幸的。经过了漫长的等待&#xff0c;终于&#xff0c;拟录取名单下来了&#xff0c;我也很幸…

2019哈工大计算机考研复试,哈工大计算机专业,复试比例101%,擦线党没戏了...

这几天哈工大各院系公布了复试线及复试名单&#xff0c;其中「计算机学院」的复试考生比例居然是101%。 哈工大2020年计算机专业的考研复试线为320分(学术学位)&#xff0c;以及专业学位的电子信息&#xff0c;也是320分&#xff0c;哈工大公布的校线也是这个分数&#xff0c;院…

哈工大计算机报深圳还是本部,哈工大本部和哈工大深圳哪个比较好?

眼下各省市的高考成绩陆续公布&#xff0c;考生和家长们进入了填报志愿的关键时期&#xff0c;这个时候我们会发现一个问题&#xff1a;有些学校会有很多分校或分校区&#xff0c;比如东北大学和东北大学秦皇岛分校、山东大学和山东大学威海校区等&#xff0c;这些校区和分校跟…

哈工程和杭电计算机,哈工程算名校吗?为什么说千万别来哈工程?

选择科目 测一测我能上哪些大学 选择科目 领取你的专属报告 > 选择省份 关闭 请选择科目 确定 v> “哈工程”一般指哈尔滨工程大学&#xff0c;这是一所直属国家工业和信息化部&#xff0c;和教育部、黑龙江省、哈尔滨市共建的全国重点大学。网上有说法是“千万别来哈工程…