Linux文本处理工具——Grep

首页 > 代码库 > Linux文本处理工具——Grep

Linux文本处理工具——Grep

2024-07-11 23:31:10 222人阅读

Grep简介

全名：Global search Regular expression and Print out the line.

功能：文本搜索工具，根据用户指定的文本模式（搜索条件）对目标文件进行逐行搜索，显示能匹配到的行。

Linux的三大文本处理工具之一，可以说学好grep命令无疑是重要的，可以说学好grep也是不容易的，因为grep里面要用到最烦人的正则表达式。

grep语法格式

grep [option]... ‘PATTERN‘ FILE...

[option]：表示可以跟选项，中括号表示可以省略，…表示可以跟多个选项

PATTERN:这个可以跟上模式，也就是可以使用正则表达式来进行匹配搜索，正则表达式下面会细说。

FILE…：表示后面可以跟上多个进行文本搜索的文件

Eg：查找/etc/passwd这个文件里面包含root字眼的行，从下图可以看出，打印出来的行，每一行的内容都包含有root字眼，这就是grep的作用

W注意点：模式当中一但包含元字符一定要用‘‘或""号引起来，单双引号都可以、只不过如果其中出现了变量、并且我们希望做变量替换的话那就要使用""双引号了、否则可以不加区分的使用。

常用选项[option]

--color=auto：用颜色显示出匹配的内容

可以看到，被匹配的内容都通过颜色高亮出来，这样很有助于我们去检查给予的匹配条件有没有符合我们的要求。所以平时都要带上这个选项，但是又不想每次都输入，就可以在~/.bashrc里面加入alias grep=‘grep --color=auto‘就可以了。

-v: 反向选取：就是表示取反，把没有匹配到的行显示出来

-i：匹配的时候，对于匹配的条件忽略字符大小写

正则表达式的简介

如果grep命令只是可以匹配给定的具体字符的话，那估计grep就没有这么大的魔力了，当然也不敢号称是三大文本处理工具之一了。想用好grep，就要学会怎么样让grep去进行模式（就是正则表达式）匹配，这就脱不开正则表达式，虽然正则表达式很烦人，但是学好了，作用是非常大。

概念：是一类字符所书写的模式，其中许多字符不表示其字面意义，而是表达控制或通配等功能，这类字符就是所谓的元字符。

混淆点：正则表达式不是由bash shell环境去解释的，而是通过正则表达式引擎来解释，也就是说命令自己要去实现和解释正则表达式。

正则表达式可以分为两种：基本正则表达式和扩展正则表达式，接下来就会细说这两者。

基本正则表达式

正则表达式不外乎是一堆元字符组成的模式，对于基本正则表达式，可以把元字符分为四个方面

1、字符匹配：用来匹配相应的字符的，比如是数字还是字母一类的。。。

. 匹配任意单个字符

Eg： grep "r..t" /etc/passwd 表示匹配以r字母为首，中间出现任意两个字符，然后紧跟t字母的子串

[] 匹配指定范围内的任意单个字符

[ade] 这样就表示，可以匹配a或者d或者e

对于中括号，这里还有一些特殊含义的字符

[0-9], [[:digit:]] 数字

[a-z], [[:lower:]] 小写字母

[A-Z], [[:upper:]] 大写字母

[[:space:]] 空格

[[:punct:]] 标点符号

[[:alpha:]] 字母

[[:alnum:]] 字母+数字

Eg：grep “[0-9][0-9]” /etc/fstab 表示找两个数字一起的子串

[^] 表示取反，也就是非

2、次数匹配元字符：用于实现指定其前面的字符所能够出现的次数

*: 任意长度，它前面的字符可以出现任意次

例如：x*y 可以用来匹配xxy, xyy, y,

\?: 0次或1次，它前面的字符是可有可无的

例如：x\?y 可以用来匹配xy, y, ay

\{m\}: m次，它前的字符要出现m次

例如：x\{2\}y 可以用来匹配xy, xxy, y, xxxxy, xyy

\{m,n\}: 至少m次，至多n次

例如：x\{2,5\}y 可以用来匹配xy, y, xxy

\{m,\}：至少m次

\{0,n\}: 至多n次

\+：至少1次

. *：任意长度的任意字符

Eg：grep “[0-9]\{1,3\}” /etc/fstab 表示匹配数字至少出现一次，至多出现三次的子串

3、位置锚定：

^: 行首锚定；

写在模式最左侧，表示必须从行首开始匹配

$: 行尾锚定：

写在模式最右侧，表示必须以这个结尾

\<: 词首锚定:

出现于单词左侧，表示必须从词首开始匹配

\>: 词尾锚定:

出现于单词右侧，表示必须以这个作为单词结束

\b：可以用来代替\<和\>

Eg：查找/etc/fstab中以#开头的内容

4、分组：

 例如：$ab$*

还可以用来引用：分组中的模式匹配到的内容，可由正则表达式引擎记忆在内存中，之后可被引用

\#: 引用第n个括号所匹配到的内容，而非模式本身

Eg：从文本中匹配同一行中有连续两个相同子串的内容

扩展正则表达式简介

Grep如果要使用扩展正则表达式的话，要带上-E的选项，或者使用egrep命令也可以。

扩展正则表达其实和基础正则表达式一样，但是扩展正则表达的好处就是及少使用转义的符号，不会被一大堆的转义符号搞得晕头转向的。

使用扩展正则表达式，还多了一个功能，就是可以使用具备或功能的元字符（|），它的功能很好用，很多情况就是有了或功能，正则表达式的模式会变得比较短小。

扩展正则表达式

跟基本正则表达式一样，也总共分四类

1、字符匹配

. 匹配任意单个字符

[] 匹配指定范围内的任意单个字符

[ade] 这样就表示，可以匹配a或者d或者e

对于中括号，这里还有一些特殊含义的字符

[0-9], [[:digit:]] 数字

[a-z], [[:lower:]] 小写字母

[A-Z], [[:upper:]] 大写字母

[[:space:]] 空格

[[:punct:]] 标点符号

[[:alpha:]] 字母

[[:alnum:]] 字母+数字

[^] 表示取反，也就是非

2、次数匹配元字符

*：任意次

?: 0次或1次

+: 至少1次；

{m}: 精确匹配m次

{m,n}: 至少m次，至多n次

{m,}：至少出现m次

{0,n}：至多出现n次

3、位置锚定

^：行首锚定

$：行尾锚定

\<, \b：词首锚定

\>, \b：词尾锚定

4、分组

()

引用：\1, \2, \3

5、或者

a|b: a或者b

eg:取/etc/passwd文件里面带有root或者dump的内容

Fgrep的使用

fgrep：它不支持正则表达式，你找想什么具体的字符就写什么具体的字符，所以它的查找速度也是最快的；

例：fgrep "/bin/bash" /etc/passwd

练习测试

这里直接给出题目和结果，通过练习可以让我们更好的掌握知识点

基本正则表达式练习：

1、显示/proc/meminfo文件中以大写或小写S开头的行；

# grep -i ‘^s‘ /proc/meminfo

# grep ‘^[Ss]‘ /proc/meminfo

# grep -E ‘^(S|s)‘ /proc/meminfo

2、显示/etc/passwd文件中其默认shell为非/sbin/nologin的用户；

# grep -v "/sbin/nologin$" /etc/passwd | cut -d: -f1

3、显示/etc/passwd文件中其默认shell为/bin/bash的用户；

进一步：仅显示上述结果中其ID号最大的用户；

# grep "/bin/bash$" /etc/passwd | sort -t: -k3 -n | tail -1 | cut -d: -f1

4、找出/etc/passwd文件中的一位数或两位数；

# grep "\<[0-9][0-9]\?\>" /etc/passwd

# grep "\<[0-9]\{1,2\}\>" /etc/passwd

5、显示/boot/grub/grub.conf中以至少一个空白字符开头的行；

# grep "^[[:space:]]\{1,\}" /boot/grub/grub.conf

6、显示/etc/rc.d/rc.sysinit文件中，以#开头，后面跟至少一个空白字符，而后又有至少一个非空白字符的行；

# grep "^#[[:space:]]\{1,\}[^[:space:]]\{1,\}" /etc/rc.d/rc.sysinit

7、找出netstat -tan命令执行结果中以‘LISTEN‘结尾的行；

# netstat -tan | grep "LISTEN[[:space:]]*$"

8、添加用户bash, testbash, basher, nologin（SHELL为/sbin/nologin），而找出当前系统上其用户名和默认shell相同的用户；

# grep "^$[[:alnum:]]\{1,\}$:.*\1$" /etc/passwd

9、扩展题：新建一个文本文件，假设有如下内容：

He like his lover.

He love his lover.

He like his liker.

He love his liker.

找出其中最后一个单词是由此前某单词加r构成的行。

$l..e$.*\1r

扩展表达式练习

10、显示当前系统上root、fedora或user1用户的默认shell；

# grep -E "^(root|fedora|user1):" /etc/passwd | cut -d: -f7

11、找出/etc/rc.d/init.d/functions文件中某单词后跟一组小括号“()”行；

# grep -o -E "\<[[:alnum:]]+\>" /etc/rc.d/init.d/functions

12、使用echo命令输出一个路径，而后使用grep取出其基名；

# echo "/etc/sysconfig/" | grep -o -E "[[:alnum:]]+/?"

# echo "/etc/sysconfig/" | grep -o -E "[^/]+/?$" | cut -d/ -f1

13、找出ifconfig命令结果中的1-255之间的数字；

# ifconfig | grep -o -E "\<([1-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])\>"

14、挑战题：写一个模式，能匹配合理的ipv4地址；

1.0.0.1-239.255.255.255

本文出自 “LC的IT之路” 博客，请务必保留此出处http://leezc.blog.51cto.com/8650393/1437657

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Linux文本处理工具——Grep