在企业应用中,除了经常会用到企业级的性能监控和告警工具(如nagios、zabbix),还会在服务器设备出现性能问题时,可以通过部署一些可以进行性能回溯和追踪的性能分析工具,便于在主机hang死或挂机时,定位主机各项指标是否过载,也可以定位到具体是哪些程序引发了性能瓶颈。

运维人员一般接触到性能分析工具非常多,win平台下的有perfmon、java下的jprofile、系统下的sysstat工具包、nmon、top、htop、atop、iftop、iotop…… ,如果我们想列,这个名单还可以更长。不过大部分工具都是即时查看的,如果想要对历史数据进行存储,就需要配合脚本进行数据处理。不过显然很多运维前辈们肯定也想到了此问题,这里我选择了几个可以进行性能回溯的工具---sysstat、atop、oswatch、nmon。

sysstat在安装完后,会在/etc/init.d下存在一个服务进程sysstat(其目前也已经支持systemd方式的init管理,配置文件为/usr/lib/systemd/system/sysstat.service),该服务会结合crontab 默认每十分钟取一次数据进行保存。atop工具同htop工具一样,是top的一个”升级版”,atop工具安装完后也会在/etc/init.d目录下生成一个atop的服务,同样是结合crontab进行数据的存取。

一、sysstat

sysstat在/etc/init.d的服务名为boot.sysstat,其默认启动时,会将/etc/sysstat/sysstat.cron软链接到/etc/cron.d/sysstat 。

sysstat配置相关:

 1361way:/etc/sysstat # ll
 2total 16
 3-rw-r--r-- 1 root root  424 Jan 29  2014 sysstat
 4-rw-r--r-- 1 root root  263 Jan 29  2014 sysstat.cron
 5-rw-r--r-- 1 root root 6228 Jan 29  2014 sysstat.ioconf
 6361way:/etc/sysstat # cat sysstat.cron
 7# crontab for sysstat
 8# Activity reports every 10 minutes everyday
 9*/10 * * * * root [ -x /usr/lib64/sa/sa1 ] && exec /usr/lib64/sa/sa1 -S ALL 1 1
10# Update reports every 6 hours
1155 5,11,17,23 * * *     root [ -x /usr/lib64/sa/sa2 ] && exec /usr/lib64/sa/sa2 -A

默认情况下数据保存60天,当前日期10天之前的数据文件会进行压缩保存:

 1361way:/etc/sysstat # more sysstat
 2# sysstat-10.0.5 configuration file.
 3# How long to keep log files (in days).
 4# If value is greater than 28, then log files are kept in
 5# multiple directories, one for each month.
 6HISTORY=60
 7# Compress (using gzip or bzip2) sa and sar files older than (in days):
 8COMPRESSAFTER=10
 9# Parameters for the system activity data collector (see sadc manual page)
10# which are used for the generation of log files.
11SADC_OPTIONS=""

默认数据文件存储在/var/log/sa目录

1361way:/var/log/sa # ll
2total 4
3drwxr-xr-x 2 root root 4096 Sep  4 21:16 201409
4lrwxrwxrwx 1 root root   11 Sep  4 23:30 sa04 -> 201409/sa04

使用时,可以使用sar -f datafile读取之前收集的数据。sysstat的更多信息,可以参看博文:https://blog.361way.com/use-sysstat/1521.html

二、atop

atop工具,类似于将top的结果定期的取值,并存放到一个数据文件中,事后可以通过分析该文件,还原问题时间点的各进程的资源使用信息,atop的详细用法可以参看我的博客:Linux atop监控工具部署

三、OSWatch

OSWatch工具是由 oracle 搞出来的一个性能监控工具,不过其需要依赖sysstat这样的工具包里的工具,其调用的命令有iostat、ps、top、vmstat、tracert 等,通过简单的脚本,以定期间隔将数据保留在相应的目录文件中,也可以指定参数,保证其保留最近多长时间的文件。为了便于汇图,在该工具包中还提供了一个 jar文件,通过该jar文件可以方便的将收集到的数据以图示的形式展示出来。具体可以参看我的博文:OSWatch安装与使用

四、nmon

nmon是ibm 搞出的一个性能分析工具,默认可以实时查看,也可以通过crontab配合实现以一定的时间间隔将每天的数据保留在相应的文件内,一般会选择以csv 的格式存放,因为官方提供了一个工具,通过excel 的宏功能,可以轻松的实现数据的绘图,从其收集的数据来看,大多是通过获取/proc/下的文件,经过简单的处理后,存在一个文件中。具体可以参看我的博文:AIX/linux下的性能监控工具—nmon

五、总结

1、sysstat 服务获得的数据反映的是系统的整体性能情况,sysstat的数据文件通过sar命令读取的结果较人性化,易理解;

2、而atop工具,可以细化到每个进程的性能数据,atop的分析结果比较接近动态,类似于直接执行 top一样,可以按 cpu、内存情况进行排序,又可以正则匹配 。而 atopsar 更类似于sar 工具输出的结果 。

3、OSWatch工具是在sysstat、ps、top等常用工具的基础上,又以shell 脚本的方式进行了二次开发和封装,当然输出结果比较人性化 ,安装 tar包解压后即可使用,可以将可执行程序和结果存放在任一位置 。也支持通过调用gzip命令对输出内容进行压缩。

4、nmon工具输出的结果感觉比较乱(非实时模式),通过查看其输出文件处理比较不方便,不过取出数据后,结合excel 出图这个比较人性化,对于技能要求比较低,任何人取下来数据,点下excel 里的宏按钮即可生成漂亮的走势图。

所以在遇到对系统问题进行定位和分析时,可以结合起来用。从现网使用的经验来看,以上工具占用系统都不多 。一般公司比较重要的节点上,除部署zabbix、nagios这类的工具外,还可以再部署oswatch、atop两个工具,便于出现问题后结合分析。可以利用前者查看趋势图情况、利用后者进行文本数据对比。