dell-poweredge – PowerEdge R905 – “磁盘驱动器托架电池出现故障”

我最近得到了一个来自我管理的PE 905的警报:I1912 SEL Full.我通过DRAC Web UI检查了SEL,并且今天看到以下消息重复了大约50次:

"The disk drive bay battery has failed"

几秒钟之后,通过等效故障清除消息(不幸的是我清除了SEL,看看我是否仍然收到消息,然后才能复制其确切的措辞).

问题是我甚至不知道驱动器托架有电池. (它没有,是吗?)

该盒子中唯一的RAID控制器是PERC 6 / i,其电池报告为好.我没有看到任何ROMB错误(也没有得到警报),也没有任何其他表明PERC的电池坏了.

毋庸置疑,我搜索了错误信息,但我能找到的最好的是日语中的一篇交叉发表的文章.通过G翻译,作者似乎表明该消息可能表示每个戴尔的RAID电池故障或即将发生的控制器故障.

看起来他更换了控制器和电池,从而解决了这个问题.但这两种替换都需要吗? (我预算紧张,不,我们不再在这台机器上拥有戴尔服务/支持).

关于这个主题只有一篇可用的帖子,我想知道是否有人可以更好地了解这个错误.我很乐意提供任何日志等,但SEL中除了该消息之外的所有内容看起来都很糟糕.事实上,自清除日志以来,错误在过去〜小时内没有返回.

谢谢!

最佳答案
看起来原始错误消息是新消息的前兆,实际上确实会在Google中显示一些结果.在一个安静的夜晚之后,我开始在系统日志中收到以下消息:

The storage battery has failed.
The storage battery is operating normally.

它与昨晚所显示的模式相同,但有不同的信息.

A Dell Community wiki page报告错误的详细描述如下:

The PERC RAID controller battery may have failed because of thermal exceptions.

虽然当然可能是局部热问题,但系统板温度目前报告为26度. C,所以它不是系统范围内的热问题.

据报道,one of Dell’s mailing lists上的PERC 5 / i也出现了类似的问题,该问题并未指出热量原因,但可能存在坏/旧固件. (我的f / w是最新的).

在我的情况下,再次清除SEL后,控制器电池的一切都显示良好,并且日志中没有出现新事件. (通过OpenManage查看).

我在控制器的电池上启动了一个学习循环,几乎立即报告它在OM内降级.此后,日志开始再次填充相同的消息:

基于这些新信息,我非常有信心问题是电池问题.我将在今天晚些时候更换它,当我可以到达服务器的位置.

我的假设是电池的学习周期开始了,就在那时电池开始被报告为坏.也许它在充电时会升温,从而在加热然后冷却时产生重复的信息.

我正在回答我自己的问题,因为我希望这有助于任何人搜索我的原始错误消息(在搜索中没有产生英语结果).

幸运的是,坏的控制器电池对我来说不是问题,因为有问题的机器连接到SAN,而PERC仅负责本地操作系统卷,而不是写密集型.但是,有一点需要注意的是,如果你依赖写缓存并且有多个使用相同电池类型的PERC控制器,请至少保留一个额外的电池.

更新:以科学的名义,我让电池的学习周期完成.它花了一段时间,但成功完成并且没有向ESM Log / SEL添加新的错误消息.

当然,电池仍然是可疑的并且将被更换,但我建议任何遇到我所描述的症状的人尝试开始学习周期.

转载注明原文:dell-poweredge – PowerEdge R905 – “磁盘驱动器托架电池出现故障” - 代码日志