首页 > 代码库 > 去掉word冗余格式 java正则表达式
去掉word冗余格式 java正则表达式
word转换html时,会留下很多格式,有些格式并不是我们所需要的,然而这些格式比真正的文章内容还要多,严重影响页面的加载速度,因此就需要找个一个好的解决方案把这些多余的格式个去掉。网上有很多去除word冗余格式的js版的正则表达式,这里只提供java版的正则表达式。
1.public static String clearWordFormat(String content) { 2. //把<P></P>转换成</div></div>保留样式 3. //content = content.replaceAll("(<P)([^>]*>.*?)(<\\/P>)", "<div$2</div>"); 4. //把<P></P>转换成</div></div>并删除样式 5. content = content.replaceAll("(<P)([^>]*)(>.*?)(<\\/P>)", "<p$3</p>"); 6. //删除不需要的标签 7. content = content.replaceAll("<[/]?(font|FONT|span|SPAN|xml|XML|del|DEL|ins|INS|meta|META|[ovwxpOVWXP]:\\w+)[^>]*?>", ""); 8. //删除不需要的属性 9. content = content.replaceAll("<([^>]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:‘[^‘]*‘|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>", "<$1$2>"); 10. //删除<STYLE TYPE="text/css"></STYLE>及之间的内容 11. int styleBegin = content.indexOf("<STYLE"); 12. int styleEnd = content.indexOf("</STYLE>") + 8; 13. String style = content.substring(styleBegin, styleEnd); 14. content = content.replace(style, ""); 15. return content; 16.}
去掉word冗余格式 java正则表达式
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。