昨天公司的一台NFS服务器遭遇IO居高不下的情况 ,通过iostat查看,io使用率在80%以上,时常还会直接IO飙满,导致NFS的访问异常。重启主机后问题依旧,最后使用iotop查看后,发现主要是jbd2进程在写导致的。具体见下图iotop的结果:

nfs

jbd2是ext4文件系统的一部分。为什么会使用如何此的IO。首先想到的是ext4写日志,不过机器自身文的变动(及写或更新)并不大,后来网上查找后发现。ext4文件系统出现过bug,bug原理大致是,文件的写和请求会导致其中一个int型的值不断增大,最后增大到超出了自身的范围 —— 变成负值 。就会触发该bug ,而想要达到该值并不容易,需要几个月后才会出现。详细的原理不再解释(关键详细的我也看不懂),有兴趣的可以参看如下两篇:

http://blog.donghao.org/2013/03/20/修复ext4日志(jbd2)bug/

http://www.udpwork.com/item/10217.html

在ubuntu论坛上也看到有人反映此类问题: http://ubuntuforums.org/showthread.php?t=2170496

而且以上几个地方都有一个共性的地方,就是提出该情况的时间都是在2013年中旬的时候。所以综合以上信息得出的结果就是这是一个内核ext4文件系统的bug,时间已经过去四五个月的时间。既然当时网上已经有人提供了临时修复补丁 ,官方kernel里也应该做了相应的更新。所以处理该问题的优先级为:

1、yum升级kernel ,重启查看是否有效。(在此之前先要做好备机使用的准备工作)
2、重装系统分区,完成后重新挂载数据分区。
3、验证临时补丁的可用性。并在现网修复。

最终在使用第一部 yum update更新kernel后,重启主机 。发现IO恢复正常 。jbd2进程的使用恢复到正常水平。问题解决 !