首页 > 代码库 > Linux系统管理
Linux系统管理
进程管理
进程管理简介
进程是正在执行的一个程序或命令,每一个进程都是一个运行的实体,都有自己的 地址空间,并占用一定的系统资源。
进程管理的作用
- 判断服务器健康状态
- 查看系统中所有进程
- 杀死进程
进程的查看
查看所有进程
ps命令
- ps aux 查看系统中所有进程,使用BSD操作系统格式
- ps -le 查看系统中所有进程,使用Linux标准命令格式
- 选项
-a 显示一个终端的所有进程,除了会话
-u 显示进程的归属用户及内存的使用情况
-x 显示没有控制终端的进程
-l 长格式显示。显示更加详细的信息
-e 显示所有进程和-A作用一致
- 选项
/* USER 进程由哪个用户生成
PID 进程ID号
%CPU 进程占用CPU资源的百分比,占用越高,进程越耗资源
%MEM 进程占用物理内存的百分比,占用越高,进程越耗资源
VSZ 进程占用虚拟内存的大小,单位KB
RSS 进程占用实际物理内存的大小,单位KB
TTY 进程是在哪个终端中运行。
其中tty1-tty7代表本地控制台终端,tty1-tty6是本地字符界面终端,tty7是图形终端,pts/0-255代表虚拟终端、远程终端
tty1-tty7可以通过CTL+ALT+F1~CTL+ALT+F7来切换。
TTY显示?说明进程是由内核启动的不是由终端启动。
STAT 进程状态。
常见的状态:
R 运行、S 睡眠、T 停止状态、s 包含子进程、+ 位于后台
START 进程启动时间
TIME 进程占用CPU的运算时间,注意不是系统时间
COMMAND 产生此进程的命令名
*/
$ ps aux
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 1 0.0 0.4 185316 4116 ? Ss 6月24 0:23 /sbin/init spl
root 2 0.0 0.0 0 0 ? S 6月24 0:00 [kthreadd]
root 3 0.0 0.0 0 0 ? S 6月24 4:07 [ksoftirqd/0]
root 5 0.0 0.0 0 0 ? S< 6月24 0:00 [kworker/0:0H]
root 7 0.1 0.0 0 0 ? S 6月24 16:09 [rcu_sched]
...
pstree命令
- pstree
- 选项
-p 显示进程的PID
-u 显示进程的所属用户
- 选项
$ pstree
systemd─┬─ModemManager─┬─{gdbus}
│ └─{gmain}
├─NetworkManager─┬─dhclient
│ ├─dnsmasq
│ ├─{gdbus}
│ └─{gmain}
├─accounts-daemon─┬─{gdbus}
│ └─{gmain}
├─acpid
├─5*[agetty]
├─avahi-daemon───avahi-daemon
├─colord─┬─{gdbus}
...
top命令
查看系统健康状态
- top
- 选项
-d 秒数 指定投票命令每隔几秒更新。默认3秒
-b 使用批处理模式输出。一般和-n
选项合用
-n 次数 指定top命令指定的次数。一般和-b
选项合用
- 选项
- 在top命令的交互模式当中可以执行的命令
?或h 显示交互模式的帮助
P 以CPU使用率排序,默认就是此项
M 以内存的使用率排序
N 以PID排序
q 退出top
第一行信息为任务队列信息
内容 | 说明 |
---|---|
12:26:46 | 系统当前时间 |
up 1 day, 13:32 | 系统的运行时间,本机已经运行1天13小时32分钟 |
2 users | 当前登录了两个用户 |
load average: 0.00, 0.00, 0.00 | 系统在之前1分钟,5分钟,15分钟的平均负载。一般任务小于1时,负载较小。如果大于1,系统已经超出负载。 |
第二行为进程信息
内容 | 说明 |
---|---|
Tasks: 95 tatal | 系统中进程总数 |
1 running | 正在运行的进程数 |
94 sleeping | 睡眠的进程 |
0 stopped | 正在停止的进程 |
0 zombie | 僵尸进程。如果不是0,需要手工检查僵尸进程 |
注:
孤儿进程:一个父进程退出,而它的一个或多个子进程还在运行,那么那些子进程将成为孤儿进程。孤儿进程将被init进程(进程号为1)所收养,并由init进程对它们完成状态收集工作。
僵尸进程:一个进程使用fork创建子进程,如果子进程退出,而父进程并没有调用wait或waitpid获取子进程的状态信息,那么子进程的进程描述符仍然保存在系统中。这种进程称之为僵死进程。
第三行行为CPU信息
内容 | 说明 |
---|---|
Cpu(s): 0.1%us | 用户模式占用的CPU百分比 |
0.1%sy | 系统模式占用的CPU百分比 |
0.0%ni | 改变过优先级的用户进程占用的CPU百分比 |
99.7%id | 空闲CPU的CPU百分比 |
0.1%wa | 等待输入/输出的进程占用CPU百分比 |
0.0%hi | 硬终端请求服务占用的CPU百分比 |
0.1%si | 软中断请求服务占用的CPU百分比 |
0.0%st | st(Steal time)虚拟时间百分比。就是当有虚拟机时,虚拟CPU等待实际CPU的时间百分比 |
第四行行为物理内存信息
内容 | 说明 |
---|---|
Mem: 625344k total | 物理内存的总量,单位KB |
571504k used | 已经使用的物理内存数量 |
53840 free | 空闲的物理内存数量,我们使用虚拟机,总共只分配了628MB内存,所以只有53MB的空闲内存了 |
65800k buffers | 作为缓冲的内存数量 |
注:
buffers:加速写入;例如保存文件内容,真是情况是先写入文件进程的缓冲区,然后在文件关闭和系统空闲时再写入硬盘。
第五行为交换分区(swap)信息
内容 | 说明 |
---|---|
Swap: 524280k total | 交换分区(虚拟内存)的总大小 |
Ok used | 已经使用的交互分区的大小 |
524280k free | 空闲交换分区的大小 |
409289k cached | 作为缓存的交换分区的大小 |
注:
cached:加速读取;例如,读取硬盘文件时可以把部分文件放在内存中缓存起来,不用每次访问硬盘,加速读取文件速度。
top内容主要查看
load average、cpu的空闲率、内存的空闲、Swap分区的空闲。
// 更改top刷新时间为1s,但不建议,top本身耗费资源
$ top -n 1
// 使用top只能在终端中看到很少一部分程序,因此使用-b来保存进程到文件中
$ top -b -n 1 >top.log
$ cat top.log
进程的结束
kill命令
- kill -l
- 查看可用的进程信号
信号代号 | 信号名称 | 说明 |
---|---|---|
1 | SIGHUB | 该信号让进程立即关闭,然后重新读取配置文件之后重启 |
2 | SIGINT | 程序终止信号,用于终止前台进程。相当于输出ctl+c快捷键 |
8 | SIGFPE | 在发生致命的算术运算错误时发出。不仅包括浮点运算错误,还包括溢出及除数为0等其他所有的算术的错误 |
9 | SIGKILL | 用来立即结束程序的运行。本信号不能被阻塞、处理和忽略。一般用于强制终止进程。 |
14 | SIGALRM | 时钟定时信号,计算的是实际的时间或时钟时间。alarm函数使用该信号 |
15 | SIGTERM | 正常结束进程的信号,kill命令默认信号。有时如果进程已经发生问题,这个信号是无法正常终止进程的,我们才会尝试SIGKILL信号,也就是信号9。 |
18 | SIGCONT | 该信号可以让暂停的进程恢复执行,本信号不能被阻塞。 |
19 | SIGSTOP | 该信号可以暂停前台进程,相当于输入ctl+z快捷键。本信号不能被阻断。 |
SIGHUB信号
若apache服务器重新设置配置文件,需要重启apache服务,如果使用服务命令stop、start时关闭服务造成用户体验非常差。那么可以使用Kill -HUB pid的命令使apache服务重新加载配置实现平滑重启。但apache服务有多个服务进程,那么可以使用killall 命令实现。
平滑重启不会使服务器登录用户掉线。SIGKILL
强制终止进程,kill -9 2236
// 查看可用的进程信号
$ kill -l
// 强制终止进程,注kill后跟的是pid不能是进程名
$ kill -9 2237
killall命令
- killall [选项][信号]进程名
- 选项
-i 交互式,询问是否要杀死某个进程
-I 忽略进程名的大小写
- 选项
// 杀死所有apache服务
$ killall -9 httpd
pkill命令
- pkill [选项][信号]进程号
- 选项
-t 终端号 按照终端号踢出用户
- 选项
注:pkill和killall命令基本相同。
// 查看当前登录用户
$ w
19:53:45 up 3:02, 1 user, load average: 0.00, 0.01, 0.05
USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
root tty1 - 16:51 3:02m 23.87s 0.23s -bash
root pts/0 192.168.44.1 04:47 0.00s 0.22s 0.00s w
root pts/0 192.168.44.1 04:47 0.00s 0.22s 0.00s -bash
// 只有root用户可以踢掉本地用户
# pkill -9 -t tty1
进程优先级的修改
进程优先级简介
Linux操作系统是一个多用户、多任务的操作系统,Linux系统中通知运行着非常多的进程。但是CPU在统一时钟周期内只能运算一个指令。进程优先级决定了每个进程处理的先后顺序。
$ ps -le
F S UID PID PPID C PRI NI ADDR SZ WCHAN TTY TIME CMD
4 S 0 1 0 0 80 0 - 29895 - ? 00:00:02 systemd
1 S 0 2 0 0 80 0 - 0 - ? 00:00:00 kthreadd
1 S 0 3 2 0 80 0 - 0 - ? 00:00:00 ksoftirqd/0
1 S 0 5 2 0 60 -20 - 0 - ? 00:00:00 kworker/0:0H
1 S 0 7 2 0 80 0 - 0 - ? 00:00:03 rcu_sched
1 S 0 8 2 0 80 0 - 0 - ? 00:00:00 rcu_bh
1 S 0 9 2 0 -40 - - 0 - ? 00:00:00 migration/0
5 S 0 10 2 0 -40 - - 0 - ? 00:00:00 watchdog/0
5 S 0 11 2 0 80 0 - 0 - ? 00:00:00 kdevtmpfs
1 S 0 12 2 0 60 -20 - 0 - ? 00:00:00 netns
// PRI代表Priority,NI代表Nice。这两个值都是优先级,数字越小代表该进程优先级越高。
修改NI值时有几个注意事项
- NI的值的范围是-20到19
- 普通用户调整NI值的范围是0到19,而且只能调整自己的进程
- 普通用户只能调高NI值,而不是降低,如原本NI值为0,则只能调整为大于0
- root用户才能设定进程NI值为负值,而且可以调整任何用户的进程
- PRI(最终值)=PRI(原始值)+NI
- 用户只能修改NI的值,不能直接修改PRI
nice命令
- nice [选项] 命令
nice命令可以给新执行的命令直接赋予NI值,但是不能修改已经存在进程的NI值
- 选项
-n NI值 给命令赋予NI值
- 选项
// 进程启动时才可以修改其NI值,进程运行时无法修改
# nice -n -5 service httpd start
renice命令
- renice [优先级] PID
renice命令是修改已经存在进程的NI值命令
// 使用renice来修改已经存在进程的NI值
# renice -10 2125
工作管理
工作管理简介
工作管理是指在单个登录终端中(也就是登录的shell界面中)同时管理多个工作的行为。
注意事项
当前的登录终端,只能管理当前终端的工作,而不能管理其他登录终端的工作
放入后台的命令必须可以持续运行一段时间,这样我们才能捕捉和操作这个工作
放入后台执行的命令不能和前台有交互或需要前台输入,否则放入后台只能暂停,而不能运行
工作管理方法
进程放入后台
- 使用 & 把命令放入后台
- 使用 ctrl + z快捷键把命令放入后台
// 把命令放入后台,并在后台执行
$ tar -zcf etc.tar.gz /etc &
// 按下ctl + z 快捷键,放在后台暂停
$ top
ctl + z
查看后台的工作
- jobs
- 选项
-l 显示工作的PID
注:”+”号代表最近一个放入后台的工作,也是工作回复时,默认回复的工作。”-“号代表倒数第二个放入后台的工作
- 选项
$ top&
$ top // ctrl+ z放入后台
// 查看后台进程,两个top进程都是停止的,因为top给前台用户查看的,和前台有交互,无法在后台执行
$ jobs
[1]- Stopped top
[2]+ Stopped top
$ vi abc &
$ jobs
[1] Stopped top
[2]- Stopped top
[3]+ Stopped vi abc
将后台暂停的工作恢复到前台执行
- fg %工作号
- 参数
%工作号 %号可以省略,但是注意工作和PID的区别
- 参数
将后台暂停的工作恢复到后台执行
- bg %工作号
- 参数
%工作号 %号可以省略,但是注意工作和PID的区别
- 参数
注:后台恢复执行的命令,是不能和前台有交互的,否则不能恢复到后台执行
后台命令脱离登录终端执行
简介
把命令放入后台,只能在当前登录终端执行。一旦退出或关闭终端,后台程序就会停止。
后台命令脱离登录终端执行的方法
- 把需要后台执行的命令加入 /etc/rc.local文件
- 使用系统定时任务,让系统在指定的时间执行某个后台命令
- 使用nohub命令,推荐使用
- 做成daemon守护进程 如mysqld服务
// 系统启动时执行rc.local文件
$ cat /etc/rc.local
touch /var/lock/subsys/local // 注:这里不是创建文件,改变文件的timestamp
// 在终端1中执行for.sh
# vi for.sh
#!/bin/bash
for ((i=0; i<=1000; i=i+1))
do
echo 11 >> /root/for.log
sleep 10
done
# nohup /root/for.sh &
// 关闭终端1
// 打开终端2,ps aux 可以看到for.sh仍在运行
系统资源查看
vmstat命令监控系统资源
vmstat [刷新延时 刷新次数]
$ vmstat 1 3
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
0 0 70280 133280 13140 303244 0 4 60 16 53 121 1 1 98 0 0
0 0 70280 133264 13140 303248 0 0 0 0 40 201 1 0 99 0 0
0 0 70280 133264 13140 303248 0 0 0 0 43 183 1 0 99 0 0
- process 进程信息字段
-r 等待运行的进程数,数量越大,系统越繁忙
-b 不可被唤醒的进程数量,数量越大,系统越繁忙 - memory 内存信息字段
-swpd 虚拟内存的使用情况,单位KB
-free 空闲的内存容量,单位KB
-buff 缓冲的内存容量,单位KB
-cache 缓冲的内存容量,单位KB - swap 交换分区的信息字段
-si 从磁盘中交换到内存中数据的数量,单位KB
-so 从内从中交换到磁盘中数据的数量,单位KB。此两个数越大,证明数据需要经常在磁盘和内存之间交换,系统性能越差。 - io 磁盘读写信息字段
-bi 从块设备读入数据的总量,单位是块
-bo 写到块设备的数据的总量,单位是块。次两个数越大,代表系统的I/O越繁忙。 - system 系统信息字段
-in 每秒被中断的进程次数
-cs 每秒中进行的时间切换次数。此两个数越大,代表系统与接口设备的通信非常繁忙。 - CPU CPU信息字段
-us 非内核进程消耗CPU运算时间的百分比
-sy 内核进程消耗CPU运算时间的百分比
-id 空闲CPU的百分比
-wa 等待I/O所消耗的CPU百分比
-st 被虚拟机所盗用的CPU占比
dmesg开机时内核检测信息
$ dmesg |grep CPU
free命令查看内存使用状态
- free [-b|-k|-m|-g]
- 选项
-b 以字节为单位显示
-k 以KB为单位显示,默认就是以KB为单位显示
-m 以MB为单位显示
-g 以GB为单位显示
- 选项
/*
total 总内存数
used 已经使用内存数
free 空闲的内存数
shared 多个进程共享的内存数
buffers 缓冲内存数
cached 缓存内存数
默认单位是KB
*/
$ free -m
total used free shared buff/cache available
Mem: 983 545 124 6 313 273
Swap: 1906 68 1838
查看CPU信息
$ cat /proc/cpuinfo
uptime命令
显示系统的启动时间和平均负载,也就是top命令的第一行。w命令也可以看到这个数据。
$ uptime
10:10:47 up 6:11, 1 user, load average: 0.18, 0.10, 0.09
$ w
10:11:35 up 6:12, 1 user, load average: 0.09, 0.09, 0.09
USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
root tty7 :0 一16 17:20m 49.38s 0.28s /sbin/upstart --user
查看系统与内核相关信息
- uname [选项]
- 选项
-a 查看系统所有相关信息
-r 查看内核版本
-s 查看内核名称
- 选项
判断当前系统的位数
- file /bin/ls
查看当前Linux系统的发行版本
- lsb_release -a
列出进程打开或使用的文件信息
- lsof [选项]
列出进程调用或打开文件的信息
- 选项
-c 字符串 只列出以字符串开头的进程打开的文件
-u 用户名 只列出某个用户的进程打开的文件
-p pid 列出某个PID进程打开的文件
- 选项
// 查询系统中所有进程调用的文件
$ lsof |more
// 查询某个文件被哪个进程调用
$ lsof /sbin/init
// 查看httpd进程调用了哪些文件
$ lsof -c httpd
// 按照用户名,查询某个用户进程调用的文件
$ lsof -u root
缓存和缓冲的区别
简单来说缓存(cache)用来加速数据从硬盘中“读取”的,而缓冲(buffer)用来加速数据“写入”硬盘的。
系统定时任务
- at一次性定时任务
- crontab循环定时任务
- 系统的crontab设置
- anacron配置
at命令
确定at安装
// at 服务是否安装
# chkconfig --list |grep atd
# service atd status
at的访问控制
如果系统中有/etc/at.allow文件,那么只有写入/etc/at.allow文件(白名单)中的用户可以使用at命令(/etc/at.deny文件会被忽略)
如果系统中没有/etc/at.allow文件,只有/etc/at.deny文件,那么写入/etc/at.deny文件(黑名单)中的用户不能使用at命令。对root不起作用
如果系统中这两个文件都不存在,那么只有root用户可以使用at命令
at命令
at [选项] 时间
选项
-m 当at工作完成后,无论是否命令有输出,都用email通知执行at命令的用户
-c 工作号 显示该at 工作的实际内容
时间:
-HH:MM 例如:02:30
-HH:MM YYYY-MM-DD 例如:02:30 2013-07-25
-HH:MM [am|pm] [month] [date] 例如:02:30 July 25
-HH:MM [am|pm] + [minutes|hours|days|weeks] 例如:now + 5 minutes
例子
$ at now +2 minutes
at> /root/hello.sh >> /root/hello.log
at> <EOT>
// 指定时间重启
$ at 02:00 2013-07-26
at>/bin/sync
at>/sbin/shutdown -r now
其他at管理命令
atq
- 查询当前服务器上的at工作
atrm [工作号]
- 删除指定的at任务
crontab
crond服务管理与访问控制
// 检查crond服务是否安装启动
# service crond restart
# chkconfig crond on
访问控制
当系统中有/etc/cron.allow文件时,只有写入此文件的用户可以使用crontab命令,没有写入的用户不能使用crontab命令。同样如果有此文件,/etc/cron.deny文件会被忽略,/etc/cron.allow文件的优先级更高
当系统中只有/etc/cron.deny文件时,则写入此文件的用户不能使用crontab命令,没有写入文件的用户可以使用crontab命令
用户的crontab设置
- crontab [选项]
- 选项:
-e 编辑crontab定时任务
-l 查询crontab任务
-r 删除当前用户所有的crontab任务
- 选项:
// 编辑crontab命令
$ crontab -e
***** command
项目 | 含义 | 范围 |
---|---|---|
第一个* | 一小时当中的第几分钟 | 0-59 |
第二个* | 一天当中的第几小时 | 0-23 |
第三个* | 一个月当中的第几天 | 1-31 |
第四个* | 一年当中的第几个月 | 1-12 |
第五个* | 一周当中的星期几 | 0-7(0和7都代表星期日) |
特殊符号 | 含义 |
---|---|
* | 代表任何时间。比如第一个“*”就代表一小时中的每分钟都执行一次的意思 |
, | 代表不连续的时间。比如“0 8,12,16 * * * 命令”,就代表每天的8点0分,12点0分,16点0分都执行一次命令 |
- | 代表连续的时间范围,比如“0 5 * * 1-6 命令”,代表在周一到周六凌晨5点0分执行命令 |
*/n | 代表每隔多久执行一次。比如“ */10 * * * * 命令”,代表每隔10分钟就执行一遍命令 |
// cron命令,每月1号和15号,每周1的0点0分都会执行
// 注意:星期几和几号最好不要同时出现,他们定义的都是天。非常迷惑。
0 0 1,15 * 1 命令
// 例子
// 每隔5分钟在/root/test中写入111
*/5 * * * * echo 111 >> /root/test
crontab注意事项
六个选项不能为空,必须填写。如果不确定使用“*”代表任意时间。
crontab定时任务,最小有效时间是分钟,最大时间范围是月。想2018年某时执行,3点30分30秒这样的时间都不能识别。
在定义时间时,日期和星期最好不要在一条定时任务中出现,因为他们都是以天作为单位,飞铲更容易让管理员混乱。
在定时任务中,不管是直接写命令,还是在脚本中写命令,最好都是用绝对路径。
注:定时任务自带的环境变量与$PATH中的保存的环境变量不一定相同,所以在crontab中使用绝对路径。
系统定的crontab设置
“crontab -e”是每个用户执行的命令,也就是说不同的用户身份可以执行自己的定时任务。可是有些定时任务需要系统执行,这是我们就需要编辑/etc/crontab这个配置文件。
// 这里crontab是普通用户的定时任务
$ crontab -e
// 系统定时任务
// CentOS 5 中的配置文件
$ vim /etc/crontab
SHELL=/bin/bash
PATH=/sbin:/bin:/usr/sbin:/usr/bin
MAILTO=root
HOME=/
#run-parts
01 * * * * root run-parts /etc/cron.hourly
02 4 * * * root run-parts /etc/cron.daily
22 4 * * 0 root run-parts /etc/cron.weekly
42 4 1 * * root run-parts /etc/cron.monthly
// 查看/etc下crontab相关的目录和文件
# ls /etc/cron
cron.d/ cron.hourly/ crontab
cron.daily/ cron.monthly/ cron.weekly/
执行系统的定时任务的方法
手工执行定时任务
系统定时任务
第一种是把需要定时执行的脚本复制到/etc/cron.{daily, weekly, monthly}目录中任意一个
第二种是修改/etc/crontab配置文件
anacron配置
anacron是用来保证在系统关机的时候错过的定时任务,可以在系统开机之后再执行
anacron检测周期
anacron会使用一天,七天,一个月作为检测周期
在系统的/var/spool/anacron/目录中存在cron.{daily, weekly, monthly}文件,用于记录上次执行cron的时间
和当前时间作比较,如果两个时间的差值超过了anacron的指定时间差值,证明有cron任务没有被执行
CentOS 6.x 的区别
在老的CentOS版本中,/etc/cron.{daily, weekly, monthly}这些目录即会被cron调用,也会被anacron调用,容易重复执行
在CentOS 6.x中则只会被anacron调用,避免了重复执行
在CentOS 6.x中,anacron不再是服务,而是系统命令
anacron配置文件
$ vi /etc/anacrontab
# /etc/anacrontab: configuration file for anacron
# See anacron(8) and anacrontab(5) for details.
SHELL=/bin/sh
PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin
HOME=/root
LOGNAME=root
RANDOM_DELAY=45
START_HOURS_RANGE=3-22
# These replace cron‘s entries
1 5 cron.daily run-parts --report /etc/cron.daily
7 10 cron.weekly run-parts --report /etc/cron.weekly
@monthly 15 cron.monthly run-parts --report /etc/cron.monthly
#天数 强制延迟(分钟) 工作名称 实际执行的命令
cron.daily工作来说明执行过程
首先读取/var/spool/anacron/cron.daily中上一次anacron执行的时间
和当前时间比较,如果两个时间差值超过1天,就执行cron.daily工作
执行这个工作只能在03:00-22:00之间
执行工作时强制延迟时间为5分钟,再随机延迟0-45分钟时间
使用nice命令指定默认优先级,使用run-parts脚本执行/etc/cron.daily目录中所有可执行文件
参考
Linux中的计划任务-Crontab
慕课网Linux系统管理课程
Linux系统管理