HtmlParser使用指南

article/2025/10/9 18:54:18

1、相关资料

官方文档:http://htmlparser.sourceforge.NET/samples.html

API:http://htmlparser.sourceforge.Net/javadoc/index.html

其它HTML 解释器:jsoup等。由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它。


2、使用HtmlPaser的关键步骤

(1)通过Parser类创建一个解释器

(2)创建Filter或者Visitor

(3)使用parser根据filter或者visitor来取得所有符合条件的节点

(4)对节点内容进行处理


3、使用Parser的构造函数创建解释器

Parser() 
          Zero argument constructor.
Parser(Lexer lexer) 
          Construct a parser using the provided lexer.
Parser(Lexer lexer, ParserFeedback fb) 
          Construct a parser using the provided lexer and feedback object.
Parser(String resource) 
          Creates a Parser object with the location of the resource (URL or file).
Parser(String resource, ParserFeedback feedback) 
          Creates a Parser object with the location of the resource (URL or file) You would typically create a DefaultHTMLParserFeedback object and pass it in.
Parser(URLConnection connection) 
          Construct a parser using the provided URLConnection.
Parser(URLConnection connection, ParserFeedback fb) 
          Constructor for custom HTTP access.
        对于大多数使用者来说,使用最多的是通过一个 URLConnection 或者一个保存有网页内容的字符串来初始化Parser,或者使用静态函数来生成一个Parser对象。 ParserFeedback 的代码很简单,是针对调试和跟踪分析过程的,一般不需要改变。而使用 Lexer 则是一个相对比较高级的话题,放到以后再讨论吧。
        这里比较有趣的一点是,如果需要设置页面的编码方式的话,不使用Lexer就只有静态函数一个方法了。对于大多数中文页面来说,好像这是应该用得比较多的一个方法。

4、HtmlPaser使用Node对象保存各节点信息



(1)访问各个节点的方法
Node getParent ():取得父节点
NodeList getChildren ():取得子节点的列表
Node getFirstChild ():取得第一个子节点
Node getLastChild ():取得最后一个子节点
Node getPreviousSibling ():取得前一个兄弟(不好意思,英文是兄弟姐妹,直译太麻烦而且不符合习惯,对不起女同胞了)
Node getNextSibling ():取得下一个兄弟节点
(2)取得Node内容的函数
String getText ():取得文本
String toPlainTextString():取得纯文本信息。
String toHtml () :取得HTML信息(原始HTML
String toHtml (boolean verbatim):取得HTML信息(原始HTML
String toString ():取得字符串信息(原始HTML
Page getPage ():取得这个Node对应的Page对象
int getStartPosition ():取得这个NodeHTML页面中的起始位置
int getEndPosition ():取得这个NodeHTML页面中的结束位置


5、使用Filter访问Node节点及其内容

(1)Filter的种类

顾名思义,Filter就是对于结果进行过滤,取得需要的内容。

所有的Filter均实现了NodeFilter接口,此接口只有一个方法Boolean accept(Node node),用于确定某个节点是否属于此Filter过滤的范围。

HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter,也可以分为几类。
判断类Filter
TagNameFilter
HasAttributeFilter

HasChildFilter
HasParentFilter
HasSiblingFilter
IsEqualFilter
逻辑运算Filter
AndFilter
NotFilter

OrFilter
XorFilter
其他Filter
NodeClassFilter
StringFilter

LinkStringFilter
LinkRegexFilter
RegexFilter
CssSelectorNodeFilter

除此以外,可以自定义一些Filter,用于完成特殊需求的过滤。
(2)Filter的使用示例

以下示例用于提取HTML文件中的链接

  1. package org.ljh.search.html;  
  2.   
  3. import java.util.HashSet;  
  4. import java.util.Set;  
  5.   
  6. import org.htmlparser.Node;  
  7. import org.htmlparser.NodeFilter;  
  8. import org.htmlparser.Parser;  
  9. import org.htmlparser.filters.NodeClassFilter;  
  10. import org.htmlparser.filters.OrFilter;  
  11. import org.htmlparser.tags.LinkTag;  
  12. import org.htmlparser.util.NodeList;  
  13. import org.htmlparser.util.ParserException;  
  14.   
  15. //本类创建用于HTML文件解释工具  
  16. public class HtmlParserTool {  
  17.   
  18.     // 本方法用于提取某个html文档中内嵌的链接  
  19.     public static Set<String> extractLinks(String url, LinkFilter filter) {  
  20.         Set<String> links = new HashSet<String>();  
  21.         try {  
  22.             // 1、构造一个Parser,并设置相关的属性  
  23.             Parser parser = new Parser(url);  
  24.             parser.setEncoding("gb2312");  
  25.   
  26.             // 2.1、自定义一个Filter,用于过滤<Frame >标签,然后取得标签中的src属性值  
  27.             NodeFilter frameNodeFilter = new NodeFilter() {  
  28.                 @Override  
  29.                 public boolean accept(Node node) {  
  30.                     if (node.getText().startsWith("frame src=")) {  
  31.                         return true;  
  32.                     } else {  
  33.                         return false;  
  34.                     }  
  35.                 }  
  36.             };  
  37.               
  38.             //2.2、创建第二个Filter,过滤<a>标签  
  39.             NodeFilter aNodeFilter = new NodeClassFilter(LinkTag.class);  
  40.               
  41.             //2.3、净土上述2个Filter形成一个组合逻辑Filter。  
  42.             OrFilter linkFilter = new OrFilter(frameNodeFilter, aNodeFilter);  
  43.               
  44.             //3、使用parser根据filter来取得所有符合条件的节点  
  45.             NodeList nodeList = parser.extractAllNodesThatMatch(linkFilter);  
  46.               
  47.             //4、对取得的Node进行处理  
  48.             for(int i = 0; i<nodeList.size();i++){  
  49.                 Node node = nodeList.elementAt(i);  
  50.                 String linkURL = "";  
  51.                 //如果链接类型为<a />  
  52.                 if(node instanceof LinkTag){  
  53.                     LinkTag link = (LinkTag)node;  
  54.                     linkURL= link.getLink();  
  55.                 }else{  
  56.                     //如果类型为<frame />  
  57.                     String nodeText = node.getText();  
  58.                     int beginPosition = nodeText.indexOf("src=");  
  59.                     nodeText = nodeText.substring(beginPosition);  
  60.                     int endPosition = nodeText.indexOf(" ");  
  61.                     if(endPosition == -1){  
  62.                         endPosition = nodeText.indexOf(">");  
  63.                     }  
  64.                     linkURL = nodeText.substring(5, endPosition - 1);  
  65.                 }  
  66.                 //判断是否属于本次搜索范围的url  
  67.                 if(filter.accept(linkURL)){  
  68.                     links.add(linkURL);  
  69.                 }  
  70.             }  
  71.               
  72.         } catch (ParserException e) {  
  73.             e.printStackTrace();  
  74.         }  
  75.         return links;  
  76.     }  
  77. }  

程序中的一些说明:

(1)通过Node#getText()取得节点的String。

(2)node instanceof TagLink,即<a/>节点,其它还有很多的类似节点,如tableTag等,基本上每个常见的html标签均会对应一个tag。官方文档说明如下:

org.htmlparser.nodesThe nodes package has the concrete node implementations.
org.htmlparser.tagsThe tags package contains specific tags.
因此可以通过此方法直接判断一个节点是否某个标签内容。


其中用到的LinkFilter接口定义如下:

[java]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. package org.ljh.search.html;  
  2.   
  3. //本接口所定义的过滤器,用于判断url是否属于本次搜索范围。  
  4. public interface LinkFilter {  
  5.     public boolean accept(String url);  
  6. }  

测试程序如下:

[java]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. package org.ljh.search.html;  
  2.   
  3. import java.util.Iterator;  
  4. import java.util.Set;  
  5.   
  6. import org.junit.Test;  
  7.   
  8. public class HtmlParserToolTest {  
  9.   
  10.     @Test  
  11.     public void testExtractLinks() {  
  12.         String url = "http://www.baidu.com";  
  13.         LinkFilter linkFilter = new LinkFilter(){  
  14.             @Override  
  15.             public boolean accept(String url) {  
  16.                 if(url.contains("baidu")){  
  17.                     return true;  
  18.                 }else{  
  19.                     return false;  
  20.                 }  
  21.             }  
  22.               
  23.         };  
  24.         Set<String> urlSet = HtmlParserTool.extractLinks(url, linkFilter);  
  25.           
  26.         Iterator<String> it = urlSet.iterator();  
  27.         while(it.hasNext()){  
  28.             System.out.println(it.next());  
  29.         }  
  30.     }  
  31.   
  32. }  


输出结果如下:

http://www.hao123.com
http://www.baidu.com/
http://www.baidu.com/duty/
http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=
http://music.baidu.com
http://ir.baidu.com
http://www.baidu.com/gaoji/preferences.html
http://news.baidu.com
http://map.baidu.com
http://music.baidu.com/search?fr=ps&key=
http://image.baidu.com
http://zhidao.baidu.com
http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&nc=1&word=
http://www.baidu.com/more/
http://shouji.baidu.com/baidusearch/mobisearch.html?ref=pcjg&from=1000139w
http://wenku.baidu.com
http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=
https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F
http://www.baidu.com/cache/sethelp/index.html
http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt
http://tieba.baidu.com/f?kw=&fr=wwwt
http://home.baidu.com
https://passport.baidu.com/v2/?reg&regType=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F
http://v.baidu.com
http://e.baidu.com/?refer=888
;
http://tieba.baidu.com
http://baike.baidu.com
http://wenku.baidu.com/search?word=&lm=0&od=0
http://top.baidu.com
http://map.baidu.com/m?word=&fr=ps01000



http://chatgpt.dhexx.cn/article/SLM1R1fM.shtml

相关文章

htmlparser的使用java_java htmlparser 简单使用入门

下面对htmlparser 简单介绍下,信息来自百度 htmlparser [1] 是一个纯的 java写的 html( 标准通用标记语言下的一个应用)解析的库&#xff0c;它不依赖于其它的java库文件&#xff0c;主要用于改造或 提取html。它能超高速解析html&#xff0c;而且不会出错。现在htmlparser最新…

java htmlparser 使用教程_HtmlParser基础教程

1、相关资料 官方文档&#xff1a;http://htmlparser.sourceforge.net/samples.html API&#xff1a;http://htmlparser.sourceforge.net/javadoc/index.html 其它HTML 解释器&#xff1a;jsoup等。由于HtmlParser自2006年以后就再没更新&#xff0c;目前很多人推荐使用jsoup代…

htmlparser补全HTML,htmlparser

源程序代码 我们的 C# 程序中经常会产生一些数据&#xff0c;这些数据可以使用 Html 表格进行展现。现在让我们开始写相关的 C# 程序吧。下面就是 HtmlMaker.cs&#xff1a;01:usingSystem;02:usingSystem.IO;03:usingSystem.Net;04:usingSystem.Data;05:usingSystem.Drawing;0…

【大数据】——Mahout(Hadoop体系的机器学习)

一、前言 Mahout 是Apache的一个开源项目&#xff0c;提供一些可扩展的机器学习领域经典算法的实现&#xff0c;旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现&#xff0c;包括聚类、分类、推荐过滤、频繁子项挖掘。此外&#xff0c;通过使用 Apache Ha…

mahout连接mysql时无法推荐_Mahout推荐系统初试

Mahout是Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用Apache Hadoop库,Mahout可以有效…

mahout 0.9 连接mysql_部署安装 Mahout

一、Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目&#xff0c;提供一些可扩展的机器学习领域经典算法的实现&#xff0c;旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头&#xff0c;目前已经有了…

mahout 推荐算法 java_推荐系统之推荐算法实战:mahout推荐算法框架

1.Mahout介绍 1.1概述 根据百度的解说&#xff0c;Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目&#xff0c;提供一些可扩展的机器学习领域经典算法的实现&#xff0c;旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现&#xff0c;包括聚…

Mahout之——Mahout推荐算法API详解

前言 用Mahout来构建推荐系统&#xff0c;是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法&#xff0c;并实现了并行化&#xff0c;提供非常简单的API接口&#xff1b;困难是因为我们不了解算法细节&#xff0c;很难去根据业务的场景进行算法配置和调…

mahout 记录

mahout 记录 mahout记录 输入 mahout 是以偏好&#xff08;preference&#xff09;的形式来表达的&#xff0c;一个偏好包含一个用户ID、一个物品ID、还有一个用户对物品偏爱程度的数值 简单示意图&#xff1a; DataModel 实现存储并为计算提供其所需的所有偏好、用户和物品…

Apache Mahout初体验

1、Mahout是什么&#xff1f; Mahout是一个算法库,集成了很多算法。 Apache Mahout 是 Apache Software Foundation&#xff08;ASF&#xff09;旗下的一个开源项目&#xff0c;提供一些可扩展的机器学习领域经典算法的实现&#xff0c;旨在帮助开发人员更加方便快捷地创建智能…

java调用集群mahout_Mahout--用Maven构建Mahout项目(mahoutDemo)

前言 基于Hadoop的项目,不管是MapReduce开发,还是Mahout的开发都是在一个复杂的编程环境中开发。Java的环境问题,是困扰着每个程序员的噩梦。Java程序员,不仅要会写Java程序,还要会调linux,会配hadoop,启动hadoop,还要会自己运维。所以,新手想玩起Hadoop真不是件简单的…

使用Mahout搭建推荐系统之入门篇-Mahout实战

原始地址&#xff1a;http://my.oschina.net/Cfreedom/blog/201828 用意&#xff1a; 结合上篇博客&#xff0c;写写代码熟悉一下Mahout。很多地方想法都比较粗糙&#xff0c;亟待指正。 代码放在了&#xff1a; https://github.com/xiaoqiangkx/qingRS 一、基本内容 1. 加载…

Mahout初探

mahout官网,执行下面命令,详细安装过程可参考Mahout介绍、安装与应用案例 tar -xzvf apache-mahout-distribution-0.13.0.tar.gzln -s apache-mahout-distribution-0.13.0 mahout 修改profile环境变量 export MAHOUT_HOME/home/hadoop/application/mahout export MAHOUT_CONF…

mahout java api_Mahout推荐算法API详解

前言 用Mahout来构建推荐系统&#xff0c;是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法&#xff0c;并实现了并行化&#xff0c;提供非常简单的API接口&#xff1b;困难是因为我们不了解算法细节&#xff0c;很难去根据业务的场景进行算法配置和调…

mahout LDA

什么是Mahout&#xff1f; ” Apache Mahout™ project’s goal is to build a scalable machine learning library ” 我来拓展一下&#xff1a;(1) Mahout 是Apache旗下的开源项目&#xff0c;集成了大量的机器学习算法。(2) 大部分算法&#xff0c;可以运行在Hadoop上&…

Mahout

1、Mahout是什么 Mahout是一个算法库,集成了很多算法。Apache Mahout 是 Apache Software Foundation&#xff08;ASF&#xff09;旗下的一个开源项目&#xff0c;提供一些可扩展的机器学习领域经典算法的实现&#xff0c;旨在帮助开发人员更加方便快捷地创建智能应用程序。Ma…

mahout 详解

前言 用Mahout来构建推荐系统&#xff0c;是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法&#xff0c;并实现了并行化&#xff0c;提供非常简单的API接口&#xff1b;困难是因为我们不了解算法细节&#xff0c;很难去根据业务的场景进行算法配置和调…

基于Mahout实现协同过滤推荐算法的电影推荐系统

1 Mahout介绍 Apache Mahout 是 Apache Software Foundation&#xff08;ASF&#xff09; 旗下的一个开源项目&#xff0c;提供一些可扩展的机器学习领域经典算法的实现&#xff0c;旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编…

Mahout简介

Mahout简介 一、mahout是什么 Apache Mahout是ApacheSoftware Foundation &#xff08;ASF&#xff09;旗下的一个开源项目&#xff0c;提供了一些经典的机器学习的算法&#xff0c;皆在帮助开发人员更加方便快捷地创建智能应用程序。目前已经有了三个公共发型版本&#xff0…

推荐系统 Mahout入门之简单使用

Mahout&#xff1a; Apache Mahout 是 Apache Software Foundation&#xff08;ASF&#xff09;旗下的一个开源项目&#xff0c;提供一些可扩展的机器学习领域经典算法的实现&#xff0c;旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout项目目前已经有了多个公共发行…