华为USM系统是用来管理ATAE刀片、HP pcserver、IBM pcserver、Oceanspace的方案工具,其可以实现对设备系统的部署、数据的备份、设备的维护等。华为的产品肯定优先支持华为自己的设备,这里主要以ATAE主机为例。

一、远程重启及kdump转储

在维护过程中,经常会遇到主机挂死无响应或hang机的情况。可以通过以下步骤进程重启并转储Kdump信息:

1、打开浏览器输入https://USM_IP:18443 ,使用用户名密码登录后,选择维护--kvm

usm

2、选择相应的刀框和刀片槽位后,可以通过魔术键或发送相应的功能键实现主机重启和kdump转储:

usm2

注:

1、KVM发送组合键“ALT+ SYSRQ+d(SLES9) 或“ALT+SYSRQ+c”(SLES10);

2、生成的kdump文件,存放在/home/年-月-日时间目录下。收集系统信息和分析kdump信息,可以使用log_collector.tar.gz工具包。执行sh atae_log_collector.sh后按3,选择OS系统信息收集,工具会自动收集vmcore文件内的信息。也可以通过以下命令收集kdump信息:

 1crash /usr/lrsp/kdump/vmlinux vmcore <<EOF
 2bt >bt.txt
 3foreach bt >all-bt.txt
 4dev >dev.txt
 5dev -i >>dev.txt
 6dev -p >>dev.txt
 7files >files.txt
 8foreach files >all-files.txt
 9irq >irq.txt
10kmem -f >pmemory.txt
11kmem -i >memory.txt
12mach >mach.txt
13mod >modules.txt
14mount >mount.txt
15net >network.txt
16net -s >>network.txt
17ps >ps.txt
18ps -t >>ps-t.txt
19ps -c >>ps-c.txt
20runq >runq.txt
21sig >sig.txt
22set >set.txt
23swap >swap.txt
24task >task.txt
25foreach task >all-task.txt
26sym -l >sym-l.txt
27sym -M >sym-M.txt
28log >dmesg.txt
29sys >sys.txt
30exit
31EOF

3、也可以通过smm 刀片管理单板进行命令行下的重启和kdump的转储,命令如下:

1SLES9:smmset -l bladeN -d sysrq -v d
2SLES10:smmset -l bladeN -d sysrq -v c

二、USM 救援修复

1、 从 http://support.huawei.com 网站下载rescue软件源rescue.tar.gz;

2、 将rescue软件源rescue.tar.gz拷贝到USM服务器上,例如存放在/tmp目录;

3、 进入/tmp目录并执行命令下面命令解压缩该软件源。

1# cd /tmp
2# tar -xvzf rescue.tar.gz -C / 命令执行成功后,会将rescue软件源解压缩至USM服务器的/iso目录。

注:以上步骤只需要第一次使用时执行。

4、在USM的“部署>>软件源管理>>制作软件源”界面,选择rescue软件源,单击“制作”,

usm2

5、选择“部署 > 部署任务管理”,单击“增加”,创建一个部署任务。选择RESCUE mode软件源,选择要进入救援模式的业务板所在的机框,单击“下一步”,选择要进入救援模式的业务板。单击“下一步”,显示配置软件源参数界面。不需要配置软件源参数,直接单击“下一步”。单击“提交任务”。

usm4

6、选择刚刚创建的rescue部署任务,单击“执行”,执行rescue部署任务。

更多信息可以参考:SUSE Linux系统挂死后日志收集指导书、USM远程救援模式操作指导。由于这两个文档为华为内部资料,不再提供链接地址。