корпус Intel SR2300 + mb Intel Westville SE7501WV2SCSI
2 XEON 2.8, 2GB памяти
RAID 10 на LSI Logic MegaRAID SCSI 320-1 с BBU + 4 HDD Seagate ST336607LC
Windows 2000 server.
Завис без видимых причин.
Внешне это выглядит так: сегодня утром сервер стоит намертво, на экране чернота, на клавиатуру/мышку не реагирует. Контроллер пищит, на трех дисках из четырех горит оранжевый сигнал, четвертый - не горит вообще. После выключения/включения один из дисков сигналит желтым, контроллер продолжает пищать, естественно при старте пишет, что массив деградировал. В BIOS контроллера VIEW CONFIGURATION показывает этот же диск как failed. После передергивания диска автоматом запустился rebuild, который успешно прошел. Система загрузилась без проблем - ни одной ошибки. Контроллер запустил фоновую иницилизацию.
В логах Виндов - ничего, кроме сообщения о неожиданном завершении работы, в ISM тоже пусто. Единственный след - в NVRAM логах контроллера:
SeqNo=8 ctl=0 chn=0 tgt=3 lun=0 Event= 24:MLXEV_PHYSDEV_REMOVED_DEAD
logged at Nov 28 04:50:53 2004
SeqNo=9 ctl=0 chn=0 tgt=3 lun=0 Event= 24:MLXEV_PHYSDEV_REMOVED_DEAD
logged at Nov 28 04:50:54 2004
SeqNo=10 ctl=0 chn=0 tgt=5 lun=0 Event= 24:MLXEV_PHYSDEV_REMOVED_DEAD
logged at Nov 28 04:50:55 2004
SeqNo=11 ctl=0 chn=0 tgt=0 lun=0 Event= 24:MLXEV_PHYSDEV_REMOVED_DEAD
logged at Nov 28 04:51:05 2004
SeqNo=12 ctl=0 chn=0 tgt=0 lun=0 Event= 24:MLXEV_PHYSDEV_REMOVED_DEAD
logged at Nov 28 04:51:05 2004
SeqNo=13 ctl=0 chn=0 tgt=0 lun=0 Event= 3C:MLXEV_PHYSDEV_OFFLINE_DEVICE_MADE_ONLINE
logged at Nov 28 08:37:21 2004
SeqNo=14 ctl=0 chn=0 tgt=5 lun=0 Event= 3C:MLXEV_PHYSDEV_OFFLINE_DEVICE_MADE_ONLINE
logged at Nov 28 08:37:21 2004
SeqNo=15 ctl=0 chn=0 tgt=0 lun=0 Event= 3C:MLXEV_PHYSDEV_OFFLINE_DEVICE_MADE_ONLINE
logged at Nov 28 08:38:25 2004
SeqNo=16 ctl=0 chn=0 tgt=5 lun=0 Event= 3C:MLXEV_PHYSDEV_OFFLINE_DEVICE_MADE_ONLINE
logged at Nov 28 08:38:25 2004
SeqNo=17 ctl=0 chn=0 tgt=0 lun=0 Event= 3C:MLXEV_PHYSDEV_OFFLINE_DEVICE_MADE_ONLINE
logged at Nov 28 08:39:23 2004
SeqNo=18 ctl=0 chn=0 tgt=5 lun=0 Event= 3C:MLXEV_PHYSDEV_OFFLINE_DEVICE_MADE_ONLINE
logged at Nov 28 08:39:23 2004
Если ко времени в логе добавить примерно сутки, то тогда оно совпадет со временем когда сервер встал и был запущен.
Похожая ситуация была с месяц назад, тогда тоже, сначала сбойнул диск, а потом сервер встал. Тогда было подозрение на температуру, в серверной было прохладно; в этот раз с температурой было все в порядке - мониторинг сервера молчит.
Один раз - случайность, два - уже похоже на систему. Если при каждом сбое сервер будет вставать насмерть, "защищая" тем самым данные, то на :?: мне такая защита

А теперь вопрос к спецам: что под подозрением в первую очередь?
Первая мысль была, что это scsi-backplain шалит, раз ошибки гуляют, но разве ей по силам завесить систему?
Где и как искать, посоветуйте пожалуйста!