python-re之中文匹配

首页 > 代码库 > python-re之中文匹配

2024-07-19 11:08:52 224人阅读

 1 #coding=utf-8 2 import re 3 import chardet#检测网页编码形式的模块 4    5 p = re.compile(r‘\d+‘)   6 print p.findall(‘one1two2three3four4‘)   7  8 a="rewfd231321ewq21weqeqw" 9 p=re.compile(r"(\d+)\D+(\d+)",re.S)10 b=p.findall(a)11 print b12 13 a=u"我爱@糗百，你呢"14 print a15 b=re.findall (u"(.+?)@糗百(.+)",a,re.S)16 print b17 for i in b:18     for j in i:19         print j

结果：

[‘1‘, ‘2‘, ‘3‘, ‘4‘]
[(‘231321‘, ‘21‘)] #findall的结果是[(),()]这种形式的，如果元组只有一个元素，则是["",""]这样子的
我爱@糗百，你呢
[(u‘\u6211\u7231‘, u‘\uff0c\u4f60\u5462‘)]
我爱
，你呢

——————————————————————————————————————————

如果不知道汉字文本的编码，比如说是一段网上爬来的文字（通常情况下就是不知道的）

 1 import re 2 import chardet#检测网页编码形式的模块 3    4 a="我爱@糗百，你呢" 5 if isinstance(a, unicode) : 6     pass 7 else: 8     codesty=chardet.detect(a) 9     a=a.decode(codesty[‘encoding‘])10 print a11 b=re.findall (u"(.+?)@糗百(.+)",a,re.S)12 print b13 for i in b:14     for j in i:15         print j

则利用chardet这个模块得到它的编码，并将其转化为unicode

结果：

我爱@糗百，你呢
[(u‘\u6211\u7231‘, u‘\uff0c\u4f60\u5462‘)]
我爱
，你呢

当然，如果想双击,py在windows下演示，得到的字符串应该再加j.encode("GBK")

注意：处理中文前要将其转化为unicode，不要ascii码直接正则匹配，ascII码如何转Unicode?遇到再说吧~

python-re之中文匹配

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > python-re之中文匹配

python-re之中文匹配

看完仍有疑问？有类似问题直接问程序猿