去除文本中的HTML标签、中英文标点符号、数字及英文单词

首页 > 代码库 > 去除文本中的HTML标签、中英文标点符号、数字及英文单词

去除文本中的HTML标签、中英文标点符号、数字及英文单词

2024-09-16 09:51:11 215人阅读

在进行中文分词统计前，往往要先把爬取下来的文本中包含的一些标签、标点符号、英文字母等过滤掉，这一过程叫做数据清洗。

#coding=utf-8import re import codecs def strs_filter(file):    with codecs.open(file,"r","utf8") as f,codecs.open("result.txt","a+","utf8") as c:        lines=f.readlines()        for line in lines:            # line=line.decode(‘utf8‘)            re_html=re.compile(‘<[^>]+>‘.decode(‘utf8‘))#从‘<‘开始匹配，不是‘>‘的字符都跳过，直到‘>‘            re_punc=re.compile(‘[\s+\.\!\/_,$%^*(+\"\‘]+|[+——！，。？、~@#￥%……&*“”《》：（）]+‘.decode(‘utf8‘))#去除标点符号            re_digits_letter=re.compile(‘\w+‘.decode(‘utf8‘))#去除数字及字母            line=re_html.sub(‘‘,line)            line=re_punc.sub("",line)            line=re_digits_letter.sub("",line)            c.write(line)strs_filter("strip.txt")

通过上面的代码可以去除与中文分词统计无关的内容，效果如下：

技术分享

去除文本中的HTML标签、中英文标点符号、数字及英文单词

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 去除文本中的HTML标签、中英文标点符号、数字及英文单词

去除文本中的HTML标签、中英文标点符号、数字及英文单词

看完仍有疑问？有类似问题直接问程序猿