首页 > 代码库 > 【python】正则表达式

【python】正则表达式

参考资料:http://deerchao.net/tutorials/regex/regex.htm

1、正则表达式基础

2、python 正则表达式

1、正则表达式基础

元字符:

image

其他语法:

    (1)字符转义

           如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:你没办法指定它们,因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此,你应该使用\.和\*。当然,要查找\本身,你也得用\\.

例如C:\\Windows 匹配C:\Windows

   (2)分组——用小括号来指定子表达式(也叫做分组)

           例如:(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式,\d{1,3}匹配1到3位的数字,(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(\d{1,3})。不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。选择,字符类来描述一个正确的IP地址为:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

image

    (3)贪婪与懒惰

            当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

           有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。

image

2、python正则表达式

image

实例:1:(search和match与sub)

# encoding:utf-8‘‘‘Created on 2014-6-18@author: Administrator‘‘‘import reclass Regex(object):    def regex_match(self):        pattern = "\w+@\w+.*(\w+)\.com"  # 匹配邮箱        mt = re.match(pattern, "luosongchao@xxx.yyy.xadad.com")        if mt:            print mt.group()            print mt.groups()        else:            print "no match"            def regex_search(self):        mt = re.search(r"\Bl(.?){2}", "hello world!")        if mt:            print mt.group()        else:            print "no match"                def regex_sub(self):        ret = re.sub("X", "Mr Smith", "attention:X\n\nDear X,\n")        print ret        ret = re.subn("X", "Mr Smith", "attention:X\n\nDear X,\n")        print ret        if __name__ == "__main__":    regex = Regex()    regex.regex_match()    regex.regex_search()    regex.regex_sub()

结果:

image

结论:

       match:从字符串开头开始对模式进行匹配,成功返回匹配对象,否则返回None

       search:在字符串string中搜索正则表达式模式pattern第一次出现的字符串

       sub:把字符串中匹配正则表达式pattern的地方替换为新字符串

 

实例2:(split)

# encoding:utf-8‘‘‘Created on 2014-6-18@author: Administrator‘‘‘import reclass RegexLs(object):    """使用正则表达式解析Unix命令ls -al的结果"""        def __init__(self, path):        try:            self.fl = open(path)        except Exception :            print "文件" + path + "打开出错!"    def analy_file(self):        pattern = "\s+|\t"        for line in self.fl:            print re.split(pattern, line.strip())    def __del__(self):        self.fl.close()if __name__ == "__main__":    path = "ls.txt"    regex_ls = RegexLs(path)    regex_ls.analy_file()

其中Unix命令:ls –al    生成结果格式:

image

 

结论:

      split,根据正则表达式pattern中的分隔符把字符串string分隔为一个列表

 

实例3:(惰性匹配)

# encoding:utf-8‘‘‘Created on 2014-6-18@author: Administrator‘‘‘from random import randint, choicefrom sys import maxintfrom time import ctimefrom string import lowercaseimport reclass RegexExample(object):    def __init__(self):        self.doms = (com, edu, net, org, gov)        self.format_list = []            def get_string(self):        for i in range(randint(5, 10)):            dtint = randint(0, maxint - 1)            dtstr = ctime(dtint)            shorter = randint(4, 7)                        em = ""            for j in range(shorter):                em += choice(lowercase)                        longer = randint(shorter, 12)            dn = ""            for j in range(longer):                dn += choice(lowercase)                        string = "%s::%s@%s.%s::%d-%d-%d" % (dtstr, em, dn, choice(self.doms), dtint, shorter, longer)#             print string            self.format_list.append(string)                def get_last(self):        pattern = ".+?(\d+-\d+-\d+)"        for elem in self.format_list:            print elem            ps = re.search(pattern, elem)            if ps:                print ps.group(1)            if __name__ == "__main__":    example = RegexExample()    example.get_string()        print "#"*40        example.get_last()

 

执行结果:

image

 

结论:

      get_last()函数使用的pattern=”.*?(\d-\d-\d)”执行的是惰性匹配,其中(\d-\d-\d)为分组