Сбои на сервере
Модераторы: Trinity admin`s, Free-lance moderator`s
Сбои на сервере
Уважаемые эксперты!
У меня сервер HP ML570G3 (1 контроллер SCSI) 2-а аппаратных raid (raid1 + raid5), все крутится под Redhat8. Сервер произвольно перезапускается 1 раз в неделю, в логах ошибок нет или я плохо смотрел. Администратору в почту посылается письмо с ошибкой
Subject: HP Insight Management Agents Trap Alarm
Trap-ID=6025
An 'ASR Recover Complete' trap signifies that the system has been shutdown by the ASR feature and has just become operational again
Сервер вроде стал так себя вести после подключения HP StrgWks SCSI 1U Rack и raid5
Как отследить и найти причину перезапуска сервера?
спасибо
У меня сервер HP ML570G3 (1 контроллер SCSI) 2-а аппаратных raid (raid1 + raid5), все крутится под Redhat8. Сервер произвольно перезапускается 1 раз в неделю, в логах ошибок нет или я плохо смотрел. Администратору в почту посылается письмо с ошибкой
Subject: HP Insight Management Agents Trap Alarm
Trap-ID=6025
An 'ASR Recover Complete' trap signifies that the system has been shutdown by the ASR feature and has just become operational again
Сервер вроде стал так себя вести после подключения HP StrgWks SCSI 1U Rack и raid5
Как отследить и найти причину перезапуска сервера?
спасибо
посмотрите еще messages и dmesg на предмет ообщений об ошибках и еще полезно поднять netconsole чтоб организовать лог на другую машину по сети.hpasm man page писал(а): The HP ProLiant Automatic Server Recovery (ASR) process will log a mes-
sage that the ASR has been initated, attempt to force normal Linux
shutdown and if the Linux shutdown is successfull, the cpqasm.o driver
will log a message to the IML indicating a good shutdown. The HP Pro-
Liant ROM will check a status bit on the ASM hardware to see if an ASR
event took place and will log a message to the IML as such.
The first message to be logged to the IML will be: "ASR Lockup
Detected: (casm device driver alerted)". This message indicates that
the NMI handler code of the cpqasm.o driver was able to execute. If
this message is not present but the "ASR Detected by System ROM" mes-
sage IS present, this is an indication that the NMI handler code of the
cpqasm.o driver was not able to execute. The two primary events that
prevent the cpqasm.o NMI handler from executing are:
* An uncorrectable ("double-bit") ECC memory error has occurred in
the memory area occupied by the cpqasm.o driver. You can try
moving the memory around to different slots to see if you can
isolate the issue to a particular DIMM.
* A critical PCI or Processor error has occurred. This could stop
either memory fetches or processor instructions from being exe-
cuted.
In most cases when only the "ASR Detected by System ROM" message is
logged to the IML, the problem is usually an uncorrectable ECC memory
error. If both messages are logged to the IML, this is usually an
indication of a software (e.g. Linux Kernel issue) lockup. The ASR
event is always a reaction to another event that has caused the Linux
scheduler to stop executing. Using tools such as "sar" in conjunction
with enabling the CASM_NMI_DEBUG code can assist in making a determina-
tion of what may be creating the conditions to generate an ASR event.
так тяжело что-либо сказать, но может быть память или глюк со скази картой
в любом случае RH8 не поддерживается аж с 2004 года ... . вам [давно] надо апгрейдить систему и после апгрейда уже смотреть.
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 11 гостей