首页 > 代码库 > 正则表达式的理解

正则表达式的理解


正则表达式的目的就是匹配字符串,匹配字符串可以是我们简单理解的字符串,例如:"zhangsan"
但这不是正则表达式美丽所在,它是通过对其他字符的特殊转义来达到复杂匹配字串的支持。这里介绍一下它所支持的基本转义符
1 基本正则式

1.1) ^   表示文本行的开头
eg: "^a"  表示匹配行的第一个字符为"a"的意思

1.2) $   表示文本行的结尾
eg: "$a"  表示匹配行的结尾前面的一个字符为"a"的意思

1.3) *   表示任意个字符
eg:  "^aa*bb$"  表示对存在"aa"开头,"bb"结尾,中间存在任意个字符的文本行进行匹配

1.4) [ ]  这对中括号,主要是提供一种在某一位字符存在多个情况选择的机制
eg:  "[bB]ob"  表示匹配存在bob 或者是Bob的字符串

1.5) .    表示任意一个字符,有别与"*",简单点理解就是一个占位符,对于这一个字符上面是什么样的字符没有要求
eg:  "aa.bb"   表示由"aa"和"bb",以及在这两个字串之间任意一个的字符组成的字符串。
执行演示:
$: echo "aacbb" | grep "aa.bb"
aacbb
$: echo "aabb" | grep "aa.bb"
$:

2 扩展正则式
扩展的正则表达式和基本的区别在与增加了某些元字符
在grep默认情况下支持基本正则表达式,你可以添加"-E"选项,让其支持对扩展的正则式的支持,当然你也可以使用egrep程序来实现。

2.1) |  表示选择,和基本正则当中"[" ,"]"的目的相同,只不过这个支持的不仅仅是单个字符,可以是字串,而"[]"则只能支持单个字符。
eg:
$: echo "aaa" | grep -E "aaa|bbb"
aaa
$: echo "bbb" | grep -E "aaa|bbb"
bbb
$: echo "ccc" | grep -E "aaa|bbb"
$:

2.2) ()  用于将正则式的基本元素结合起来,
针对上面现在要求开头为aaa或者bbb的匹配,echo "aaa" | grep -E "^(aaa|bbb)",如果用echo "aaa" | grep -E "^aaa|bbb"就会出现错误
例如:
$: echo "acbbb" | grep -E "^aaa|bbb"
acbbb
$:
结果不是我们要求的,

3.3){}  ?  +  *  这四个主要提供一种对匹配数目要求的支持,在这之前我们没有什么方法去支持对匹配数量的要求,例如查找"goooooogle",你可以把正则式写成"goooooogle",但是这个太麻烦,也没有拓展性。

? 表示在?之前的这个字符存在一个或者零个,简言之,就是在?之前的这个字符是可有可无的。
eg:
$: echo "abbb" | grep -E "a?bbb"
abbb
$: echo "bbb" | grep -E "a?bbb"
bbb
$:


* 表示前面的字符可以不出现或者一次及以上次数,
例如:
$: echo "abbb" | grep -E "a*bbb"
abbb
$: echo "bbb" | grep -E "a*bbb"
bbb
$: echo "aaaaabbb" | grep -E "a*bbb"
aaaaabbb
$:

+ 表示前面的字符可以出现1次或者连续的多次以上,可以与*进行比较, * 可以理解为>=0 ,而+ 可以理解为>=1;
例如:
$: echo "abbb" | grep -E "a+bbb"
abbb
$: echo "bbb" | grep -E "a+bbb"
$: echo "aaaaaaabbb" | grep -E "a+bbb"
aaaaaaabbb
$:

{m,n}表示前面的字符至少得连续m次,最多为n次,
{m}表示前面的字符得连续m次
{m,}表示前面的字符至少连续m次,或者更多
{,n} 表示前面的字符不能连续的超过n次
例如:d对{,n}这种格式下进行测试:
$: echo "aaaaaaabbb" | grep -E "^a{,4}bbb"
$: echo "aaabbb" | grep -E "^a{,4}bbb"
aaabbb
$: echo "aabbb" | grep -E "^a{,4}bbb"
aabbb
$: echo "abbb" | grep -E "^a{,4}bbb"
abbb
$: echo "bbb" | grep -E "^a{,4}bbb"
bbb
$:

注意这里的{}  *,在书写的时候得在""里面,不然shell可能进行括号的扩展,导致结果不是正常想要的。

正则表达式的理解