首页 > 代码库 > Jsoup源码分析(一)
Jsoup源码分析(一)
概述
Jsoup是一款Java 的HTML解析器。支持将html解析为DOM树、支持CSS Selector形式选择、支持html过滤,本身还附带了一个Http下载器。jsoup代码简洁,总共53个类,代码大约9000行,无第三方依赖,代码结构如下所示
jsoup
├── examples #样例,包括一个将html转为纯文本和一个抽取所有链接地址的例子。
├── helper #一些工具类,包括读取数据、处理连接以及字符串转换的工具
├── nodes #DOM节点定义
├── parser #解析html并转换为DOM树
├── safety #安全相关,包括白名单及html过滤
└── select #选择器,支持CSS Selector以及NodeVisitor格式的遍历
使用
Jsoup的入口是Jsoup
类。首先将html解析成DOM树,分别用CSS Selector以及NodeVisitor来操作Dom元素,示例代码如下
参考:http://my.oschina.net/flashsword/blog/156748
http://jsoup.org/
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。