最近,该公司的ERP系统在使用一段时间后经常无法连接。 用户投诉很大。 毕竟,找到该错误花了很长时间。 今天,我将与您分享这个过程。
故障描述
ERP系统是我们公司的重点核心业务系统,使用的人也特别之多。最近老是有用户报告系统无法连接以及在系统的用户直接掉线。但可以ping 通。经后台top查询,load在100多以上。由此可知系统的负载非常之高,系统无法响应用户的连接请求。或者系统响应该超时。从而导致无法提供连接。
故障排查过程
发现load上升,第一感觉就是系统的设置或者系统程序没有写好。从而导致服务器卡死。初步的思路就是从软件开始,第一步就是对最新上线的程序,请各程序员进行自检。结果无法找到故障点。第二步清查应用系统的部分系统脚本。请原厂商进行了自检,也没有发现问题点。进入系统查日志,也没有发现软件和硬件的问题点。接下来就是怀疑硬件的问题。通过观察法,服务器硬件都没有报警信息。至此,完全陷入了死循环。故障依旧,重启服务器几分钟之后故障又发生。之前供应商有提醒过,在远程登录的进程中老是会被卡住。问我们的硬盘是不是有问题。但我们观察了好久都没有看到硬盘有警报信息。面板没有光黄灯或红灯。在提醒了几次之后,我们还是进入 RAID卡进行查看。发现有一个硬盘显示是黄色。与其他硬盘的颜色不一样。初步估计就是这一颗硬盘的问题。然后进行了硬盘更换。待RAID重建完成之后。观察load恢复正常。
结论
这个是非常诡异的一个故障。也是很值得大家参与的案例。有一些东西系统会欺骗我们。如果单是靠看到的,用常规性的思维去找故障点。我估计没有办法一下子找到问题点。会影响到业务的运作。另外,还有一点非常的重要,我们这一台服务器是旧服务器。买了有七八年了。更换的硬盘买的是拆机品。这一些故障就是拆机品造成的。切记小心拆机品。