首页 > 代码库 > Linux江湖10:Bash脚本编程语言中的美学与哲学
Linux江湖10:Bash脚本编程语言中的美学与哲学
我承认,我再一次地当了标题党。但是不可否认,这一定是一篇精华随笔。在这一篇中,我将探讨Bash脚本语言中的美学与哲学。这不是一篇Bash脚本编程的教程,但是却能让人更加深入地了解Bash脚本编程,更加快速地学习Bash脚本编程。阅读这篇随笔,不需要你有Bash编程的经验,但一定要和我一样热衷于探索各种编程语言的本质,感悟它们的魅力。
其实早就想写关于Bash的东西了。前几天看到有博友在院子里发学习Bash的心得(这里http://www.cnblogs.com/viroyiheng/p/3988787.html),提到了为变量赋值时前面没有“$”,而使用变量时前面要加一个“$”,类似于其它编程语言中的左值右值。当时我忍不住回复了一下。我指出,“$”的存在不是为了区分左值右值,而是为了在变量所在的位置将变量展开。我同时指出,可以把Bash看成是一个面向字符串的编程语言。这就是Bash脚本语言的本质:一切皆是字符串。Bash脚本语言的一切哲学都围绕着字符串:它们从哪里来?到哪里去?要干什么?Bash脚本语言的一切美学都源自字符串:由键盘上几乎所有的符号“$、~、!、#、&、(、)、[、]、{、}、|、>、<、-、.、,、;、*、@、‘、"、`、”排列组合而成的极富视觉冲击力的功能极其复杂的字符串。
一、一切皆是字符串
Bash是一个Shell,Shell出现的初衷是将系统中的各种工具粘合在一起,所以它最根本的功能是调用各种命令。但是Bash又提供了丰富的编程功能。我们经常对编程语言进行分类,比如面向过程的语言、面向对象的语言、面向函数的语言等等。可以把Bash脚本语言看成是一个面向字符串的语言。Bash语言的本质就是:一切都是字符串。看看下图中的这些变量:
上图是我在交互式的Bash命令行中做的一些演示。在上图中,我对变量分别赋值,不管等号右边是一个没有引号的字符串,还是带有引号的字符串,甚至数字,或者数学表达式,最终的结果,变量里面存储的都是字符串。我使用一个for循环显示所有的变量,可以看到数学表达式也只是以字符串的形式储存,没有被求值。
二、引用和元字符
如果一切都是没有特殊功能的平凡的字符串,那就无法构成一门编程语言。在Bash中,有很多符号具有特殊含义,比如“$”符号被用于字符串展开,“&”符号用于让命令在后台执行,“|”用作管道,“>”“<”用于输入输出重定向等等。所以在Bash中,虽然同样是字符串,但是被引号包围的字符串和不被引号包围的字符串使用起来是不一样的,被单引号包围的字符串和被双引号包围起来的字符串也是不一样的。
究竟带引号的字符串和不带引号的字符串使用起来有什么不一样呢?下图是我构建的一些比较典型的例子:
在上图中,我展示了Bash中生成字符串的7种方法:大括号展开、波浪符展开、参数展开、命令替换、算术展开、单词分割和文件路径展开。还有两种生成字符串的方式没有讲(Process substitution和历史命令展开)。在使用Bash脚本编程的时候,了解以上7种字符串生成的方式就够了。在使用命令行的时候,了解历史命令展开可以让人事半功倍。
在上面的图片中可以看到,有一些展开方式在被双引号包围的字符串中是不起作用的,比如大括号展开、波浪符展开、单词分割、文件路径展开,而只有参数展开、命令替换和算术展开式起作用的。从图片中还可以看出,字符串中的参数展开、命令替换和算术展开都是由“$”符号引导,命令替换还可以由“`”引导。所以,可以进一步总结为,在双引号包围的字符串中,只有“$、`、\”这三个字符具有特殊含义。
如果想让任何一个字符都不具有特殊含义,可以使用单引号将字符串包围。比如使用正则表达式的时候,还比如使用sed、awk等工具的时候,由于sed和awk自己执行的命令中往往包含有很多特殊字符,所以它们的命令往往需要用单引号包围。比如使用awk命令显示/etc/passwd文件中的每个用户的用户名和全名,可以使用这个命令 awk -e ‘{print $1,$5}‘ ,其中,传递给awk的命令用单引号包围,说明bash不执行其中的任何替换。
另外一个特殊的字符是“\”,它也是引用的一种。它可以解除紧跟在它后面的一个特殊字符的特殊含义(引用),也可以让紧跟在它后面的一个普通字符具有特殊含义(escape character)。之所以需要“\”的存在,是因为在Bash中,有些字符称为元字符,这些字符一旦出现,就会将一个字符串分割为多个字符串。如果需要在一个字符串中包含这些元字符本身,就必须对它们进行引用。如下图:
最常见的元字符就是空格。从上面几张图片可以看出,如果要将一个含有空格的字符串赋值给一个变量,要么把这个字符串用双引号包围,要么使用“\”对空格进行引用。从上图中可以看出,Bash中只有9个,它们分别是“|、&、(、)、;、<、>、space、tab”,而在其它编程语言中经常出现的元字符“.、{、}、[、]”以及作为数学运算的加减乘除,在Bash中都不是元字符。
三、字符串从哪里来、到哪里去
介绍完字符串、介绍完引用和元字符,下一个目标就是来探讨这一个哲学问题:字符串从哪里来、到哪里去?通过该哲学问题的探讨,可以推导出Bash脚本语言的整个语法。字符串从哪里来?很显然,其中一个很直接的来源就是我们从键盘上敲上去的。除此之外,就是我前面提到的七八九种字符串展开的方法了。
字符串展开的流程如下:
1.先用元字符将一个字符串分割为多个字符串;
2.如果字符串是用来给变量赋值,则不管它是否被双引号包围,都认为它被双引号包围;
3.如果字符串不被单引号和双引号包围,则进行大括号展开,即将{a,b}c展开为ab ac;
以上三个流程可以通过下图证明:
4.如果字符串不被单引号或双引号包围,则进行波浪符展开,即将~/展开为用户的主目录,将~+/展开为当前工作目录(PWD),将~-/展开为上一个工作目录(OLDPWD);
5.如果字符串不被单引号包围,则进行参数和变量展开;这一类的展开全都以“$”开头,这是整个Bash字符串展开中最复杂的,其中包括用户定义的变量,包括所有的环境变量,以上两种展开方式都是“$”后跟变量名,还包括位置变量“$1、$2、...、$9、...”,其它特殊变量:“$@、$*、$#、$-、$!、$0、$?、$_”,甚至还有数组:“${var[i]}”,还可以在展开的过程中对字符串进行各种复杂的操作,如:“${parameter:-word}、${parameter:=word}、${parameter:+word}、${parameter:?word}、${parameter:offset}、${parameter:offset:length}、${!prefix*}、${!prefix@}、${name[@]}、${!name[*]}、${#parameter}、${parameter#word}、${parameter##word}、${parameter%word}、${parameter%%word}、${parameter/pattern/string}、${parameter^pattern}、${parameter^^pattern}、${parameter,pattern}、${parameter,,pattern}”;
6.如果字符串不被单引号包围,则进行命令替换;命令替换有两种格式,一种是$(...),一种是`...`;也就是将命令的输出作为字符串的内容;
7.如果字符串不被单引号包围,则进行算术展开;算术展开的格式为$((...));
8.如果字符串不被单引号或双引号包围,则进行单词分割;
9.如果字符串不被单引号或双引号包围,则进行文件路径展开;
10.以上流程全部完成后,最后去掉字符串外面的引号(如果有的话)。以上流程只按以上顺序进行一遍。比如不会在变量展开后再进行大括号展开。如果需要将流程再走一遍,请使用eval。
探讨完了字符串从哪里来,下面来看看字符串到哪里去。也就是怎么使用这些字符串。使用字符串有以下几种方式:
1.把它当命令执行;这是Bash中的最根本的用法,毕竟Shell的存在就是为了粘合各种命令。如果一个字符串出现在本该命令出现的地方(比如一行的开头,或者关键字then、do等的后面),它将会被当成命令执行,如果它不是个合法的命令,将会报错;
2.把它当成表达式;Bash中本没有表达式,但是有了((...))和[[...]],就有了表达式;((...))可以把它里面的字符串当成算术表达式,而[[...]]会把它里面的字符串当逻辑表达式,仅此两个特例;
3.给变量赋值;这也是一个特例,有点破坏Bash编程语言语法哲学的完整性。为什么这么说呢?因为“=”即不是一个元字符,也不允许两边有空格,而且只有第1个等号会被当成赋值运算符。
下面图片为以上观点给出证据:
(未完待续,现在去打篮球,争取今晚完成它。)
Linux江湖10:Bash脚本编程语言中的美学与哲学