首页 > 代码库 > AIX常规检查与排错

AIX常规检查与排错

一、AIX系统管理日常健康检查与监控

1.检查文件系统

命令:df -k(或df -m、df -g)

除了/usr文件系统,其他文件系统不应太满,一般不超过80%

如果发现文件系统空间不够,方法有两种

a.找出占用空间最大的文件

命令:du -sk * | sort -r n | head

查找当前目录下占用剑最大的子目录,逐层往下找,删除无用文件,释放空间

b.增加文件系统大小

命令:smit chfs

注意:卷组中要有剩余空间


2.检查系统完整性

命令:

umount filesystem_name

fsck filesystem_name

fsck -y filesystem_name

注意:文件系统必须先umount,再检查和修复,否则可能出错


3.查看卷组信息

命令:lsvg -l vg_name

如果发现有处于stale状态的卷组,尝试使用以下命令同步修复

命令:syncvg -v vg_name

或smit syncvg


4.检查内存交换区(paging space)使用率

命令:lsps -s (或lsps -a)

注意:使用率不要超过70%,如果超过了,要考虑增加交换区或增加内存

查看内存大小的命令:lsattr -El mem0


5.网络检查

命令:netstat -i

作用:查看网卡状态

关注:lerrs/lpkts和Oerrs/Opkts是否>1%

Oerrs:从这个网卡发出去错误包数目的统计

Opkts:从这个网卡发出去的ip包个数的统计


查看路由表

命令:netstat -rn


核对主机名

命令:hostname


查看IP地址

命令:ifconfig -a

用法

ifconfig en0 inet 11.0.0.1 up

ifconfig en0 ns 110:02.60.8c.2c.a4.98 up


查看网卡情况

命令:lsattr El ent0


添加缺省路由

路由信息格式:net,,0,172.16.23.81

命令:chdev -l inet0 -a route=0,172.16.23.81

其中172.16.23.81是网关


删除缺省路由

命令:chdev -l inet0 -a delroute=net,,0,133.16.23.81

如果缺省路由不正确,则先删除,再添加


6.系统故障记录

errdemon进程随系统启动而启动,记录包括硬件、软件及其他操作信息

文件路径:/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析

修改错误日志存放文件:/usr/lib/errdemon -i /PATH/TO/FILENAME

修改错误日志大小:/usr/lib/errdemon -s logsize

修改内存缓冲区大小:/usr/lib/errdemon -B buffersize


列出简短错误信息

命令:errpt | more

TIMESTAMP:MMDDHHMMYY(月日时分年)

T(类型):P 永久 T 临时   U 未知

C(分类):H 硬件 S 软件   O 用户 U未知

列出所有硬件出错信息:errpt -d H

列出所有软件出错信息:errpt -d S

列出详细出错信息:errpt -aj ERROR_ID(或errpt -A -j ERROR_ID)


二、清除错误日志

1.清除10天以前的所有日志

命令:errclear 10

2.清除所有硬件的错误

命令:errclear -d H 0

3.删除所有资源组为disk的记录

命令:errclear -N disk 0

4.删除所有类型为unknown的记录

命令:errclear -T UNKN 0

5.删除所有记录

命令:errclear 0


三、常用操作

1.查看机器上有几条内存及容量

命令:lscfg -vp | grep Size

命令:lscfg -vp | grep DIMM | wc -l


P570上每个Processor Card上有8个DDR memory DIMM slots,所以可以通过lscfg -vp | grep Processor看有几个Processor Card

命令:lscfg -vp | grep Processor

lscfg -vp | grep -p memory


2.查看每个硬盘(PV)容量的方法

命令:Bootinfo -s hdisk*


3.查看HBA卡的产品数据(VPD)信息

命令:lscfg -vl fcs0


四、故障处理

1.使用errpt查看报错信息

2.查看控制面板上的LES代码

8位代码:通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。(注:S85正常启动过程中有合法的8位代码)

4位代码:通常是Exxx

3位代码:通常为0yyy,只看后3位

8为和4位代码可查看系统服务手册(Service Guide)

3位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)

3.查看磁盘可用状态

命令:lsdev -Cc disk

4.查看物理卷

命令:lspv

5.查看卷组

命令:lsvg vg_name

lsvg -l vg_name

lsvg -p vg_name

5.查看文件组信息

命令:lslpp

例:lslpp -L | grep 23100020

6.查看设备参数设置

命令:lsattr

例:查看网卡参数

lsattr -El ent2

7.查看VPD信息

命令:lscfg

例:lscfg -vl ssa1








AIX常规检查与排错