首页 > 代码库 > Jsoup源码分析(一)

Jsoup源码分析(一)

概述

Jsoup是一款Java 的HTML解析器。支持将html解析为DOM树、支持CSS Selector形式选择、支持html过滤,本身还附带了一个Http下载器。jsoup代码简洁,总共53个类,代码大约9000行,无第三方依赖,代码结构如下所示

jsoup
├── examples #样例,包括一个将html转为纯文本和一个抽取所有链接地址的例子。 
├── helper #一些工具类,包括读取数据、处理连接以及字符串转换的工具
├── nodes #DOM节点定义
├── parser #解析html并转换为DOM树
├── safety #安全相关,包括白名单及html过滤
└── select #选择器,支持CSS Selector以及NodeVisitor格式的遍历

使用

Jsoup的入口是Jsoup类。首先将html解析成DOM树,分别用CSS Selector以及NodeVisitor来操作Dom元素,示例代码如下

 

 

参考:http://my.oschina.net/flashsword/blog/156748

        http://jsoup.org/