Проблема с LSI - 9261-8I
Модераторы: Trinity admin`s, Free-lance moderator`s
Проблема с LSI - 9261-8I
В пятницу отвалилось 2 диска из райда 10 (слот 6 и 4), часть данных повредилась, диски проверил смартом, все показатели в норме, на всякий случай купил 2 заменил, прошел ребил вроде все ок, на след день с утра началась вот такая чехарда (смотреть лог), сегодня начала портится инфа на дисках, юзеры взвыли. Кто подскажет в чем проблема?
- Вложения
-
- Log lsi 9261-8i.txt
- (56.65 КБ) 711 скачиваний
Хм-ммм...
Кабели поменять не хотите?
Ну и традиционный вопрос: а что за диски-то?
P.S. И да - как по мне, пост для соседней темы, про траблшутинг рейдов.
Ну и традиционный вопрос: а что за диски-то?
P.S. И да - как по мне, пост для соседней темы, про траблшутинг рейдов.
Re: Проблема с LSI - 9261-8I
Сам контроллер и кабели возрастом около 2-х лет, вот сервер 2008 года. Диски seagate constellation cs, сервер используется как файл сервер, в предыдущие 2 года все работало, как часы. Диски в списке совместимых, Seagate ST1000NC001 и ST1000NM0033. В поддержке сказали 3 варианта:бэкплэйн,кабель, питальник. С учетом возраста сервера склонен все таки думать на бэкплэйн(.
Попробовали поменять блок питания, в 5 утра снова вылезли ошибки
ID = 113
SEQUENCE NUMBER = 44764
TIME = 05-07-2016 05:14:56
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:3Invalid field in CDB, CDB = 0x1a 0x08 0x00 0x00 0xff 0x00 , Sense = 0x70 0x00 0x05 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x24 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44763
TIME = 05-07-2016 05:14:56
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:5Invalid field in CDB, CDB = 0x1a 0x08 0x00 0x00 0xff 0x00 , Sense = 0x70 0x00 0x05 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x24 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44762
TIME = 05-07-2016 05:14:56
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:5Power on, reset, or bus device reset occurred, CDB = 0x2a 0x00 0x37 0xb5 0xac 0x00 0x00 0x02 0x00 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44761
TIME = 05-07-2016 05:14:56
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:3Power on, reset, or bus device reset occurred, CDB = 0x2a 0x00 0x37 0xb7 0x1c 0x00 0x00 0x02 0x00 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44760
TIME = 05-07-2016 05:14:55
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:5Invalid field in CDB, CDB = 0x1a 0x08 0x00 0x00 0xff 0x00 , Sense = 0x70 0x00 0x05 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x24 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44759
TIME = 05-07-2016 05:14:55
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:5Power on, reset, or bus device reset occurred, CDB = 0x28 0x00 0x35 0x54 0x2a 0x00 0x00 0x02 0x00 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
ID = 268
SEQUENCE NUMBER = 44758
TIME = 05-07-2016 05:14:55
LOCALIZED MESSAGE = Controller ID: 0 PD Reset: PD = -:-:5, Critical = 3, Path = 0x4433221106000000
ID = 267
SEQUENCE NUMBER = 44757
TIME = 05-07-2016 05:14:55
LOCALIZED MESSAGE = Controller ID: 0 Command timeout on PD: PD = -:-:5No addtional sense information, CDB = 0x28 0x00 0x35 0x54 0x2a 0x00 0x00 0x02 0x00 0x00 , Sense = , Path = 0x4433221106000000
ID = 113
SEQUENCE NUMBER = 44756
TIME = 05-07-2016 05:14:53
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:3Invalid field in CDB, CDB = 0x1a 0x08 0x00 0x00 0xff 0x00 , Sense = 0x70 0x00 0x05 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x24 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44755
TIME = 05-07-2016 05:14:53
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:3Power on, reset, or bus device reset occurred, CDB = 0x28 0x00 0x35 0x54 0x76 0xb8 0x00 0x00 0x10 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
ID = 268
SEQUENCE NUMBER = 44754
TIME = 05-07-2016 05:14:53
LOCALIZED MESSAGE = Controller ID: 0 PD Reset: PD = -:-:3, Critical = 3, Path = 0x4433221100000000
Попробовали поменять блок питания, в 5 утра снова вылезли ошибки
ID = 113
SEQUENCE NUMBER = 44764
TIME = 05-07-2016 05:14:56
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:3Invalid field in CDB, CDB = 0x1a 0x08 0x00 0x00 0xff 0x00 , Sense = 0x70 0x00 0x05 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x24 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44763
TIME = 05-07-2016 05:14:56
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:5Invalid field in CDB, CDB = 0x1a 0x08 0x00 0x00 0xff 0x00 , Sense = 0x70 0x00 0x05 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x24 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44762
TIME = 05-07-2016 05:14:56
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:5Power on, reset, or bus device reset occurred, CDB = 0x2a 0x00 0x37 0xb5 0xac 0x00 0x00 0x02 0x00 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44761
TIME = 05-07-2016 05:14:56
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:3Power on, reset, or bus device reset occurred, CDB = 0x2a 0x00 0x37 0xb7 0x1c 0x00 0x00 0x02 0x00 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44760
TIME = 05-07-2016 05:14:55
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:5Invalid field in CDB, CDB = 0x1a 0x08 0x00 0x00 0xff 0x00 , Sense = 0x70 0x00 0x05 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x24 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44759
TIME = 05-07-2016 05:14:55
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:5Power on, reset, or bus device reset occurred, CDB = 0x28 0x00 0x35 0x54 0x2a 0x00 0x00 0x02 0x00 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
ID = 268
SEQUENCE NUMBER = 44758
TIME = 05-07-2016 05:14:55
LOCALIZED MESSAGE = Controller ID: 0 PD Reset: PD = -:-:5, Critical = 3, Path = 0x4433221106000000
ID = 267
SEQUENCE NUMBER = 44757
TIME = 05-07-2016 05:14:55
LOCALIZED MESSAGE = Controller ID: 0 Command timeout on PD: PD = -:-:5No addtional sense information, CDB = 0x28 0x00 0x35 0x54 0x2a 0x00 0x00 0x02 0x00 0x00 , Sense = , Path = 0x4433221106000000
ID = 113
SEQUENCE NUMBER = 44756
TIME = 05-07-2016 05:14:53
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:3Invalid field in CDB, CDB = 0x1a 0x08 0x00 0x00 0xff 0x00 , Sense = 0x70 0x00 0x05 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x24 0x00 0x00 0x00 0x00 0x00
ID = 113
SEQUENCE NUMBER = 44755
TIME = 05-07-2016 05:14:53
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:3Power on, reset, or bus device reset occurred, CDB = 0x28 0x00 0x35 0x54 0x76 0xb8 0x00 0x00 0x10 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
ID = 268
SEQUENCE NUMBER = 44754
TIME = 05-07-2016 05:14:53
LOCALIZED MESSAGE = Controller ID: 0 PD Reset: PD = -:-:3, Critical = 3, Path = 0x4433221100000000
Re: Проблема с LSI - 9261-8I
Ну если кабели свежак (предположим), то да, можно проверить и остальное тогда.
Питальник... ну-у-ууу... возможно теоретически, но хардов-то у Вас сколько? Тут скорее (по опыту) сервак бы зависал или кувыркался бы в BSOD/kernel panic.
Бэкплейн мог и "рассохнуться"-то за столько времени - проверить, кстати, не сложнее, чем заменить питатор - просто откручиваете плату бекплейна от корзины и подключаете харды директом через образовавшуюся "амбразуру".
Пробуйте.
Питальник... ну-у-ууу... возможно теоретически, но хардов-то у Вас сколько? Тут скорее (по опыту) сервак бы зависал или кувыркался бы в BSOD/kernel panic.
Бэкплейн мог и "рассохнуться"-то за столько времени - проверить, кстати, не сложнее, чем заменить питатор - просто откручиваете плату бекплейна от корзины и подключаете харды директом через образовавшуюся "амбразуру".
Пробуйте.
Re: Проблема с LSI - 9261-8I
Заметил большую странность, эти ошибки идут строго в определенное время, а именно после 5 утра, вчера были в 5:16 утра, весь день ни одной ошибки, сегодня в 5:21 утра. Что вообше происходит?
Re: Проблема с LSI - 9261-8I
В порядке бреда - а на контроллере или в ОС на 5 утра никаких задач (особено связанных с нагрузкой/повышением I/O) нет?
Ну, там, СС или быкапчег какой?
Ну, там, СС или быкапчег какой?
Re: Проблема с LSI - 9261-8I
Бэкапы стартуют в 10 вечера вплоть до 3-х ночи. Странно, буду сегодня напрямую контроллер подключать к дискам.
Re: Проблема с LSI - 9261-8I
Итак продолжение ситуации. Подключили адаптер к дискам напрямую минуя бэкплэйн и ничего не поменялось, по прежнему валят ошибки по всем дискам:
ID = 113
SEQUENCE NUMBER = 45365
TIME = 15-07-2016 06:21:00
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:1Power on, reset, or bus device reset occurred, CDB = 0x2a 0x00 0x5b 0x0c 0x1a 0x00 0x00 0x02 0x00 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
ID = 268
SEQUENCE NUMBER = 45364
TIME = 15-07-2016 06:21:00
LOCALIZED MESSAGE = Controller ID: 0 PD Reset: PD = -:-:1, Critical = 3, Path = 0x4433221102000000
ID = 268
SEQUENCE NUMBER = 45364
TIME = 15-07-2016 06:21:00
LOCALIZED MESSAGE = Controller ID: 0 PD Reset: PD = -:-:1, Critical = 3, Path = 0x4433221102000000
И так по всем диска. Что на выходе, поменян блок питания, убрана бэкплейн плата и подлючено все напрямую к контроллеру. Можно грешить еще на кабели сата, но мне практически кажется невероятным что "сдохли" сразу 2 пучка раздельных проводов, что ошибки кидает по всем дискам. Остается либо сам контроллер либо мать серверная.... Есть ли у кого еще какие мысли?
ID = 113
SEQUENCE NUMBER = 45365
TIME = 15-07-2016 06:21:00
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:1Power on, reset, or bus device reset occurred, CDB = 0x2a 0x00 0x5b 0x0c 0x1a 0x00 0x00 0x02 0x00 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
ID = 268
SEQUENCE NUMBER = 45364
TIME = 15-07-2016 06:21:00
LOCALIZED MESSAGE = Controller ID: 0 PD Reset: PD = -:-:1, Critical = 3, Path = 0x4433221102000000
ID = 268
SEQUENCE NUMBER = 45364
TIME = 15-07-2016 06:21:00
LOCALIZED MESSAGE = Controller ID: 0 PD Reset: PD = -:-:1, Critical = 3, Path = 0x4433221102000000
И так по всем диска. Что на выходе, поменян блок питания, убрана бэкплейн плата и подлючено все напрямую к контроллеру. Можно грешить еще на кабели сата, но мне практически кажется невероятным что "сдохли" сразу 2 пучка раздельных проводов, что ошибки кидает по всем дискам. Остается либо сам контроллер либо мать серверная.... Есть ли у кого еще какие мысли?
Re: Проблема с LSI - 9261-8I
Ну как сказать...evo писал(а): И так по всем диска. Что на выходе, поменян блок питания, убрана бэкплейн плата и подлючено все напрямую к контроллеру. Можно грешить еще на кабели сата, но мне практически кажется невероятным что "сдохли" сразу 2 пучка раздельных проводов, что ошибки кидает по всем дискам.
Уж не знаю, что там - контакты ржавеют, или пластик ссыхается и сдвигает их, но на моей памяти проблемы с кабелями именно в процессе эксплуатации бывали не единожды.
С какого боку тут мать могла бы быть, лично мне не ясно (если только "мост", обслуживающий разъём, зачудил) - и ставил бы на это в последнюю очередь.evo писал(а): Остается либо сам контроллер либо мать серверная.... Есть ли у кого еще какие мысли?
Контроллеры тоже практически не мрут на боевом посту (по крайней мере, 92хх серия не настолько стара, чтоб вылетать по ресурсу) - навскидку могу вспомнить лишь перегрев(?) i960-го на SCSI-контроллере когда-то, да сбойные DIMM`ы бортовой памяти попадались (когда она ещё была навесной).
Так что я бы поменял-таки кабели (чай, не дефицит) и посмотрел для начала, что из этого получится.
Re: Проблема с LSI - 9261-8I
Почему думаю на мать, до этого контроллера стоял другой адаптек, более старый, и там началось то, что он тоже отваливался, проработает день два и отвал дисков, думали контроллер прохой купили этот с новыми кабелями. Пробовал старый контроллер с новыми кабелями и все равно отвал. А тут недавно поставил старый контроллер к обычной машине со старыми кабелями, и вот уже неделю система пашет без единого сбоя.
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 5 гостей