首页 > 代码库 > HTML、XML 等 Dom 结点类解析库Jsoup
HTML、XML 等 Dom 结点类解析库Jsoup
Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
特点:
- HTML、XML、自定义DOM格式文本解析;
- 可操作HTML元素、属性、文本;
- 适用于采集解析网站HTML;
- DOM解析功能强大。
开源库jsoup-1.8.1.jar,基本用法:
1 package com.zhang.jsoupdemo; 2 3 import android.os.Environment; 4 import android.support.v7.app.AppCompatActivity; 5 import android.os.Bundle; 6 7 import org.jsoup.Jsoup; 8 import org.jsoup.nodes.Document; 9 import org.jsoup.nodes.Element; 10 import org.jsoup.safety.Whitelist; 11 import org.jsoup.select.Elements; 12 13 import java.io.File; 14 import java.io.IOException; 15 16 public class MainActivity extends AppCompatActivity { 17 18 private String html = "<html><head><title>Jsoup用法</title></head>" 19 + "<body><p><a href=http://www.mamicode.com/‘http://baidu.com‘>这里是 jsoup 项目的相关文章