首页 > 代码库 > python 正则表达式点号与'\n'符号的问题
python 正则表达式点号与'\n'符号的问题
遇到了一个小虫,特记录之。
1.正则表达式及英文的处理如下:
>>> import re>>> b=‘adfasdfasf<1safadsaf>23wfsa<13131>‘>>> pat = re.compile(‘<.*?>‘)>>> pat.findall(b)[‘<1safadsaf>‘, ‘<13131>‘]
2. 换成中文貌似就没反应了
>>> msg="<Fault warning -- \xb4\xed\xce\xf3!\n\n\xb2\xfa\xc6\xb7\xb1\xe0\xba\xc5\xb1\xd8\xd0\xe8\xce\xa8\xd2\xbb,\xd0\xc2\xb1\xe0\xba\xc53123\xb6\xd4\xd3\xa6\xb5\xc4\xb2\xfa\xc6\xb7\xd2\xd1\xbe\xad\xb4\xe6\xd4\xda!\n\xc8\xe7\xb9\xfb\xc4\xfa\xca\xd4\xcd\xbc\xcd\xa8\xb9\xfd\xb8\xb4\xd6\xc6\xc0\xb4\xc9\xfd\xbc\xb6\xb2\xfa\xc6\xb7\xd4\xf2\xcb\xb5\xc3\xf7\xb4\xcb\xb2\xfa\xc6\xb7\xd2\xd1\xbe\xad\xb4\xe6\xd4\xda\xc9\xfd\xbc\xb6\xb0\xe6\xa3\xac\xc7\xeb\xc1\xf4\xd2\xe2\xa1\xa3: ‘‘>">>> pat.findall(msg)[]
仔细分析了下貌似因为其中的\n字符!
甚为不解,又try了一把:
>>> msg =‘<\r>asdasf<asdfaf>‘>>> pat.findall(msg)[‘<\r>‘, ‘<asdfaf>‘]>>> msg=‘<\n>adf<afd>‘>>> pat.findall(msg)[‘<afd>‘]>>> msg=‘<\s>adaf<asdfa>‘>>> pat.findall(msg)[‘<\\s>‘, ‘<asdfa>‘]>>> msg=‘<\n>asdfasf<asfa>‘>>> pat.findall(msg)[‘<asfa>‘]
确实点号无法匹配特殊字符‘\n‘!
在这里找到了说明。
. | 匹配除 "\n" 之外的任何单个字符。要匹配包括 ‘\n‘ 在内的任何字符,请使用象 ‘[.\n]‘ 的模式。 |
3.[.\n]的尴尬情况
>>> pat= re.compile(‘<[.\n]*?>‘)>>> pat.findall(msg)[‘<\n>‘]
>>> msg‘<\n>asdfasf<asfa>‘
>>> msg=‘<\nasdfs>adaf<adaf>‘>>> pat.findall(msg)[]
暂时没有更好的解
python 正则表达式点号与'\n'符号的问题
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。