java 正则匹配提取html纯文本

首页 > 代码库 > java 正则匹配提取html纯文本

java 正则匹配提取html纯文本

2024-07-14 20:41:28 222人阅读

本文来自于我的个人博客： java 正则匹配提取html纯文本

做内容的大家都知道，从html中直接提取纯文本是一个很大的问题，现将我做的正则匹配贴上：

import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class TestReg {
	static String reg = "<[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*>";
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		String str = "<p></p><p>&nbsp;&nbsp;&nbsp;&nbsp;我们以Buffer类开始对java.nio包的浏览历程。"
				+ "这些类是java.nio的构造基础。这个系列中，我们将跟随《java NIO》书籍一起深入研究缓冲区，"
				+ "了解各种不同的类型，并学会怎样使用。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;一个Buffer对象"
				+ "是固定数量的数据容器。其作用是一个存储器，或者分段运输区，在这里数据可被存储并在之后用于检索。"
				+ "</p><p>&nbsp;&nbsp;&nbsp;&nbsp;Buffer类的家谱：</p><p>&nbsp;&nbsp;&nbsp;&nbsp;"
				+ "<img src=http://www.mamicode.com/"http://photo.jfq24.com/image/bigger/blog/server/upload/2014-07/user_2/13711406446068247.png" ">

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > java 正则匹配提取html纯文本

java 正则匹配提取html纯文本

看完仍有疑问？有类似问题直接问程序猿