它被设计的小,快速,灵活而且独立。HtmlCleaner也可用在Java代码中,当命令行工具或Ant任务。解析后编程轻量级文档对象,能够很容易的被转换到DOM或者JDom标准文档,或者通过各种方式(压缩,打印)连续输出XML。数学等腰三角形ppt课件-七年级数学等腰三角形ppt华师大版
HtmlCleaner是一个免费开源的适用范围广的Java语言Html文档解析器,它能重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的HTML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则,户可以提供自定义tag和规则组来进行过滤和匹配。
1.HtmlCleaner的文档对象模型拥有了一些函数,处理节点和属性,所以在序列化之前搜索或者编辑是非常容易的。
2.提供基本HtmlCleanerDOM的XPath支持
3.使用XML配置文件让创建定制tag变得更加容易
4.修复多个bug以及API改进
写一个测试用的html文件:html-clean-demo.html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd " >
< html xmlns = "http://www.w3.org/1999/xhtml " xml:lang = "zh-CN" dir = "ltr" >
< head >
< meta http-equiv = "Content-Type" content = "text/html; charset=GBK" />
< meta http-equiv = "Content-Language" content = "zh-CN" />
< title > html clean demo </ title >
</ head >
< body >
< div class = "d_1" >
< ul >
< li > bar </ li >
< li > foo </ li >
< li > gzz </ li >
</ ul >
</ div >
< div >
< ul >
< li > < a name = "my_href" href = "1.html" > text-1 </ a > </ li >
< li > < a name = "my_href" href = "2.html" > text-2 </ a > </ li >
< li > < a name = "my_href" href = "3.html" > text-3 </ a > </ li >
< li > < a name = "my_href" href = "4.html" > text-4 </ a > </ li >
</ ul >
</ div >
</ body >
</ html >
Html代码
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=GBK"/>
<meta http-equiv="Content-Language" content="zh-CN"/>
<title>html clean demo</title>
</head>
<body>
<div class="d_1">
<ul>
<li>bar</li>
<li>foo</li>
<li>gzz</li>
</ul>
</div>
<div>
<ul>
<li><a name="my_href" href="1.html">text-1</a></li>
<li><a name="my_href" href="2.html">text-2</a></li>
<li><a name="my_href" href="3.html">text-3</a></li>
<li><a name="my_href" href="4.html">text-4</a></li>
</ul>
</div>
</body>
</html>
模拟需求:取出title,name="my_href"的链接,div的class="d_1"下的所有li内容。下面用htmlcleaner写代码,HtmlCleanerDemo.java
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File( "html/html-clean-demo.html" ), "GBK" );
//按tag取.
Object[] ns = node.getElementsByName("title" , true ); //标题
if (ns.length > 0 ) {
System.out.println("title=" +((TagNode)ns[ 0 ]).getText());
}
System.out.println("ul/li:" );
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li" );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text=" +n.getText());
}
System.out.println("a:" );
//按属性值取
ns = node.getElementsByAttValue("name" , "my_href" , true , true );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href=" +n.getAttributeByName( "href" )+ ", text=" +n.getText());
}
}
}
Java代码
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File("html/html-clean-demo.html"), "GBK");
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题
if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
System.out.println("ul/li:");
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li");
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text="+n.getText());
}
System.out.println("a:");
//按属性值取
ns = node.getElementsByAttValue("name", "my_href", true, true);
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href="+n.getAttributeByName("href")+", text="+n.getText());
}
}
}
cleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。个人认为:比较常用的应该是evaluateXPath、getElementsByAttValue、getElementsByName方法了。另外说明下,htmlcleaner对不规范的html兼容性比较好。
七乐彩怎么买的 万博众博体育 中考有体育分吗 体育台在线直播 深圳体育台展开内容
葫芦兄弟七子降妖万达版下载-葫芦兄弟七子降妖万达版1.0.80折扣服
迷你世界恐龙大战下载-迷你世界恐龙大战游戏1.0 最新版
侠义传h5游戏下载-侠义传微端最新版
深圳外地车软件下载-深圳外地车限行软件2.6 安卓版
玫瑰花桌面壁纸-玫瑰花唯美桌面壁纸高清版
金属兄弟手游下载-金属兄弟metal brother1.16b 安卓版
老子要挂机bt版下载-老子要挂机游戏变态版0.7 安卓版
至达乾行司机端官方下载-至达乾行司机端1.0.0 安卓便捷版
谁动了我的岛九游下载-谁动了我的岛手游九游版0.1.2 安卓版
恶魔争霸变态版下载-恶魔争霸bt版1.1.2 安卓bt版
Mechanical 2014下载-AutoCAD Mechanical 2014官方版【64位附安装教程+注册机+序列号】
警车追逐(Police Pursuit)1.0.2安卓版
灌篮射球手游下载-灌篮射球游戏1.0 安卓正版
吟风网盘直链解析免费版
地理天气与气候习题ppt-地理天气与气候习题ppt下载免费版
9.1/1,633.4M
龙与浮岛事一款2D横版画风的动作冒险竞技游戏,魔幻题材搭配有趣的剧情,很有故事感,游戏玩法上手简单,但是很有趣,玩起来会上瘾哦~游戏介绍在辽阔蔚蓝的天空之上,漂...
油猴插件下载-Tampermonkey油猴插件合集精选实用版
9.6/1,009.3M
用过Tampermonkey油猴插件的朋友都知道好用,这是Chrome是使用多的插件了,东坡小编整理了油猴插件合集,都是精心挑选的,包含了百度网盘下载,贴吧签到...
拍译全能王词典-CamDictionary拍译全能王2.4.0 官网最新版
9.5/1,552.8M
看到一些陌生的英语或者是其它国家的语言,想知道是什么意思,但是自己有不怎么想去查询,有没有快速的知道的了?有,那就是下面的这款拍译全能王词典了!拍译全能王介绍碰...
7.8/1,538.3M
现在手机的配置越来越高,很多手机都可以流畅的支持视频壁纸了,魔法视频壁纸app可以自由的设置视频动态壁纸,可以显示手机摄像头变成壁纸。魔法视频壁纸功能1、魔法壁...
8.9/23.0M
啾咪星球是款互动性很强的语音开黑陪玩的软件,各路小姐姐小哥哥齐聚一堂,汇集了各大热门的游戏玩家,等你一起组队开黑啾咪星球软件特色【四大游戏】王者荣耀、和平精英、...
9.0/1,000.5M
棋盘之上是一款好玩的策略对战游戏,将让你体验真实有趣的策略对战,这里有很多的策略玩法,海量战棋英雄等你选择,你将在这里感受真实有趣的战斗玩法,各种不同的战斗模式...
7.9/679.0M
“最强打工王小游戏”是一个以打工为主题的小游戏。在这个游戏中,玩家需要扮演一名打工者,通过努力工作、提升技能、升职加薪来成为打工王。游戏玩法丰富多样,包括打工、...
百变邮箱下载-傲游百变邮箱官方版5.0.4.3000 官方版
9.4/1,077.0M
百变邮箱是傲游开发的一款虚拟邮箱产品,既能够保障您的真实信息不被泄露,又可以有效地解决垃圾邮件问题,同时还让您拥有了无数个性的影子邮箱,赶快下载使用吧!使用方法...
8.5/1,379.0M
找人定位助手APP是一款可以帮助用户实时定位自己想要找的人的位置信息的应用程序。特别像是老人、守护小孩这类需要被监护的人群,有了它,能时刻守护,了解对方位置和行...
9.7/679.2M
电子舞最美是一款很特别的休闲小游戏,玩家将要控制一个跳钢管舞的女孩跳舞,控制自身的动作来闯关,掌握跳舞的节奏,按照步骤快速顺畅的完成。电子舞最美游戏玩法以奇特的...
传奇巅峰最传奇官网下载-传奇巅峰最传奇官方版2.7官方安卓版
7.6/716.6M
传奇巅峰最传奇官方版是一款经典的热血城战类游戏,游戏设有3大职业角色供玩家选择,百变时装、挑战副本、击杀boss或装备、万人同屏操作更刺激,千人组队、热血攻城更...
主题库ztku.cc应用下载-主题库ztku.cc APP9.7 免费版
8.6/190.0M
ztku.cc应用实际上是主题库这款app,并且东坡下载提供最新版本的安装哦。各种各样有趣的主题库类型,都可以直接应用成功哦,比如说小米miui仿ios的,op...
7.5/1,143.1M
IT业务高效,服务品质的保证。作为公司IT部门,提供各类业务服务过程中,需要收集并整理业务工作资料的平台和工具。i英环介绍0--聚合IT和科技有关的新闻,供IT...
放置守卫者不死单机版下载-放置守卫者不死IdleGuardiansNeverDie2.0.6最新版
8.4/1,166.7M
放置守卫者不死游戏是一款像素风格的回合制rpg游戏,游戏中玩家们所有的冒险行动都将会以放置的方式展开,让玩家能够轻松的体验游戏中的玩法内容。游戏中也可以来自动离...
8.1/1,721.4M
一款好用的手机日历在手机上还是非常的受到大家的喜欢的,有需要这样的手机日历的朋友,小编就来给你介绍下面的这款不错的千秋日吧!千秋日历介绍千秋日历是一款适合中国人...
9.0/91.3M
花子动漫APP官方正版中能为用户提供诸多的高质量的动漫番剧资源,而且这里动漫覆盖的类型也是非常的全面,基本上大家喜欢的类型在这里都能轻松找到。因为花子动漫APP...
9.1/554.6M
时光猫app是一款生活备忘录软件,非常实用的小工具集合,帮助用户合理的规划时间,很多人忙了一整天都不知道自己究竟在干嘛,这款软件就可以记录你做的事情。功能介绍“...
仙宠物语0.1折版下载-仙宠物语0.1折激爽割草版2.0.0 变态版
9.4/128.6M
仙宠物语0.1折激爽割草版是一款Roguelike像素风割草手游,0.1折末日割草,停不下来,挂机领取,海量巡逻奖励!游戏采用精美的卡通动漫画面风格,为玩家呈现...
8.9/1,774.4M
一款像素复古风格的休闲游戏,在马诺冒险汉化版手游中,玩家扮演一名小偷,需要在不同的场景中寻找线索,破除机关,虚拟按钮操作,还带有一点恐怖元素,让游戏内容更加丰富...
9.6/250.7M
看我锤扁你是一款趣味性十足的对战小游戏,游戏中有多种人物皮肤装扮提供给主角橡皮人,首先在屏幕上给橡皮人画出一个超强武器,橡皮人拿着专属武器去与敌人进行对战竞技,...
8.4/1,446.5M
公蚁众筹app是一个众筹服务平台,为用户带来了丰富的众筹项目,用户可以自己挑选自己感兴趣的项目!公蚁众筹app介绍与公蚁一同开启难忘之旅。寻找远方或家乡的探险目...
守望先锋助手下载-守望先锋掌游宝(守望先锋助手)1.5.17 安卓版
7.5/1,904.7M
守望先锋想必大家都是非常的熟悉的了~现在看到有一些人在求守望先锋h动态高清图或h本子~所以小编特意整理了一下关于守望先锋的各种动态度和本子~感兴趣的朋友可以带走...
dwcs3精简版下载-Dreamweaver cs3完美者精简版9.0 中文版
10.0/631.4M
Dreamweavercs3中文破解版是一款非常好用的网页制作软件,相信很多同学都学过,计算机考级是要考的,用来制作一个php页面或者其他格式的页面!安装教程1...
8.4/1,960.2M
儿童上网控制软件是一款可以控制儿童上网时候和浏览内容的软件。自动屏蔽掉黄色等不良网站。给孩子一个绿色的童年。儿童上网控制软件说明绿色童年是一款专业的儿童上网保护...
僵尸战记手机版下载-僵尸战记安卓版(Zombie Wars)1.0 最新版
8.0/1,033.3M
B站丿主@涛影逐梦自制的一款游戏,僵尸战记是一款植物大战僵尸同人游戏。易上手特性通过新增机制。增加游戏的可玩性。新增僵尸/植物单位或技能,独特地图。这样游戏才有...