Проблеммы при перезагрузке одного из узлов Cluster-a
Модераторы: Trinity admin`s, Free-lance moderator`s
Проблеммы при перезагрузке одного из узлов Cluster-a
Здравствуйте уважаемые посетители форума и сотрудники Тринити!
Помогите пжста, разобраться в следующей ситуации:
есть диск. массив Ifortrend F16F-R2021, два сервера, на которых потом подразумевается поднять кластер MS. На серверах установлены Windows Server 2003 R2 SP2, в домен не включены. Также в каждом сервере установлены по два контроллера QLogic 2340 с установленными драйверами STOR Miniport Driver версии 9.1.4.15 от QLogic.
Если включить оба сервера, то тот сервер, который был включен первым загрузиться нормально, а тот, который был включен вторым доходит до экрана, где на черном фоне "бежит" линейка прокрутки и зависает... В таком положении может висеть сколь угодно долго(оставляли один раз на ночь). Однако, если в это время отправить на перезагрузку первый(загруженный) сервер или перегрузить диск. массив, то второй сервер чудесным образом отвисает и продолжает грузиться! Т.о. если посылать поочередно на перезагрузку сервера, то загрузиться тот, который начал грузиться первым! А второй будет висеть.
Еще было замечено такое: если один из серверов загрузился, а второй еще висит и в этот момент разорвать и потом восстановить оптическое соединение между контроллером QLogic 2340 в сервере и диск. массивом, то когда линк восстанавливается и сервер, который висел, отвисает и продолжает дальнейшую загрузку!
Может кто подскажет в чем может быть дело? Может кто сталкивался с похожей ситуацией? Толи не правильно выполнено физическое подключение, толи не выполнены какие-либо настройки на контроллерах QLogiс или еще что-то? А может - это нормальная ситуация, так все и должно быть?
Хочу добавить, что такие экспиременты проводились с установленными MultiPath-драйверами и без них. Результат одинаковый.
Заранее спасибо.
Помогите пжста, разобраться в следующей ситуации:
есть диск. массив Ifortrend F16F-R2021, два сервера, на которых потом подразумевается поднять кластер MS. На серверах установлены Windows Server 2003 R2 SP2, в домен не включены. Также в каждом сервере установлены по два контроллера QLogic 2340 с установленными драйверами STOR Miniport Driver версии 9.1.4.15 от QLogic.
Если включить оба сервера, то тот сервер, который был включен первым загрузиться нормально, а тот, который был включен вторым доходит до экрана, где на черном фоне "бежит" линейка прокрутки и зависает... В таком положении может висеть сколь угодно долго(оставляли один раз на ночь). Однако, если в это время отправить на перезагрузку первый(загруженный) сервер или перегрузить диск. массив, то второй сервер чудесным образом отвисает и продолжает грузиться! Т.о. если посылать поочередно на перезагрузку сервера, то загрузиться тот, который начал грузиться первым! А второй будет висеть.
Еще было замечено такое: если один из серверов загрузился, а второй еще висит и в этот момент разорвать и потом восстановить оптическое соединение между контроллером QLogic 2340 в сервере и диск. массивом, то когда линк восстанавливается и сервер, который висел, отвисает и продолжает дальнейшую загрузку!
Может кто подскажет в чем может быть дело? Может кто сталкивался с похожей ситуацией? Толи не правильно выполнено физическое подключение, толи не выполнены какие-либо настройки на контроллерах QLogiс или еще что-то? А может - это нормальная ситуация, так все и должно быть?
Хочу добавить, что такие экспиременты проводились с установленными MultiPath-драйверами и без них. Результат одинаковый.
Заранее спасибо.
Последовали вашим советам...
Установили Windows, затем драйверы на чипсет, LAN
установили драйверы Qlogic- ов (Windows Server 2003 STOR Miniport 32-bit Driver 9.1.4.15)
Установили утилиту QLogic (SANsurfer FC HBA Manager for Windows 5.0.0 Build 17)
Установили MPIO драйверы от Infortrend, DriverVer=1.16.3790.1609 от 12/16/2005
Завели в домен
установили первый узел кластера
все прошло гладко, без ошибок.
Включили второй узел, с целью добавить в кластер, - он не грузится (как в первом посте описано, выше)
повытыкали/повтыкали оптические пачкорды - второй узел загрузился.
завели его в кластер - все прошло отлично.
Дисковые ресурсы перетаскиваются и руками и автоматически (при перезагрузке одного из узлов).
Но перезагрузка узлов по очередно, по-прежнему, затыкается на старте винды.
Если убрать запасные пути от узлов (оставить по одному пачкорду)
то все перезагружается нормально.
Пробовали назначать адаптерам Hard loop ID с помощью утилиты от QLogic SANSurf Manager - не помогает.
Вот еще что смущает: полгода назад тоже самое железо с тем же самым подключением к массиву работало! (как кластер)
"затыков" при перезагрузках не было...
Что можете сказать по этому поводу?
Установили Windows, затем драйверы на чипсет, LAN
установили драйверы Qlogic- ов (Windows Server 2003 STOR Miniport 32-bit Driver 9.1.4.15)
Установили утилиту QLogic (SANsurfer FC HBA Manager for Windows 5.0.0 Build 17)
Установили MPIO драйверы от Infortrend, DriverVer=1.16.3790.1609 от 12/16/2005
Завели в домен
установили первый узел кластера
все прошло гладко, без ошибок.
Включили второй узел, с целью добавить в кластер, - он не грузится (как в первом посте описано, выше)
повытыкали/повтыкали оптические пачкорды - второй узел загрузился.
завели его в кластер - все прошло отлично.
Дисковые ресурсы перетаскиваются и руками и автоматически (при перезагрузке одного из узлов).
Но перезагрузка узлов по очередно, по-прежнему, затыкается на старте винды.
Если убрать запасные пути от узлов (оставить по одному пачкорду)
то все перезагружается нормально.
Пробовали назначать адаптерам Hard loop ID с помощью утилиты от QLogic SANSurf Manager - не помогает.
Вот еще что смущает: полгода назад тоже самое железо с тем же самым подключением к массиву работало! (как кластер)
"затыков" при перезагрузках не было...
Что можете сказать по этому поводу?
Андрей, год назад готовил для нас это оборудование: МПИО драйвера стояли(той же версии), оба узла были в кластере, соединение узлов было такое же("крест на крест")... и все РАБОТАЛО!
И потом, Андрей нам объяснял, что МПИО драйвера некоректно работают при "обрыве" одного из путей и т.д.
Мы же рассматриваем случай, когда все связи есть и контроллеры работают НОРМАЛЬНО. Т.е. перезагрузка должна проходить без проблем...
И потом, Андрей нам объяснял, что МПИО драйвера некоректно работают при "обрыве" одного из путей и т.д.
Мы же рассматриваем случай, когда все связи есть и контроллеры работают НОРМАЛЬНО. Т.е. перезагрузка должна проходить без проблем...
- exLH
- Сотрудник Тринити
- Сообщения: 5061
- Зарегистрирован: 11 фев 2004, 15:49
- Откуда: Москва
- Контактная информация:
shmichael
Включили второй узел, с целью добавить в кластер, - он не грузится
Сначала нужно было выключить первый (это описано в документации).
Я бы не рекомендовал на данном этапе использовать MPIO. Оставьте по одному пути от сервера до тома на дисковой системе.
Вот конфигурация, которая _запускается_ с MPIO, но отказ пути будет приводить к краху:
2 servers directly connected to F16F-R2021:
CH0 -> HBA0 on SRV1
CH0 -> HBA0 on SRV2
CH1 -> HBA1 on SRV1
CH1 -> HBA1 on SRV2
two LD are mapped to CH0 and CH1
MPIO is installed on each server
HBA - Qlogic QLA2340 + STORport driver 9.1.2.16
JP3 on each HBA is set to 1-2 position.
Hard Loop ID is set to 0 and 1 on SRV1 and to 2 and 3 on SRV2.
Включили второй узел, с целью добавить в кластер, - он не грузится
Сначала нужно было выключить первый (это описано в документации).
Я бы не рекомендовал на данном этапе использовать MPIO. Оставьте по одному пути от сервера до тома на дисковой системе.
Вот конфигурация, которая _запускается_ с MPIO, но отказ пути будет приводить к краху:
2 servers directly connected to F16F-R2021:
CH0 -> HBA0 on SRV1
CH0 -> HBA0 on SRV2
CH1 -> HBA1 on SRV1
CH1 -> HBA1 on SRV2
two LD are mapped to CH0 and CH1
MPIO is installed on each server
HBA - Qlogic QLA2340 + STORport driver 9.1.2.16
JP3 on each HBA is set to 1-2 position.
Hard Loop ID is set to 0 and 1 on SRV1 and to 2 and 3 on SRV2.
Андрей, у нас практически все это и есть. Только драйвера HBA - Qlogic QLA2340 + STORport driver 9.1.4.15 и Hard Loop ID мы пробовали выставлять и убирали в авто(т.е. "0")2 servers directly connected to F16F-R2021:
CH0 -> HBA0 on SRV1
CH0 -> HBA0 on SRV2
CH1 -> HBA1 on SRV1
CH1 -> HBA1 on SRV2
two LD are mapped to CH0 and CH1
MPIO is installed on each server
HBA - Qlogic QLA2340 + STORport driver 9.1.2.16
JP3 on each HBA is set to 1-2 position.
Hard Loop ID is set to 0 and 1 on SRV1 and to 2 and 3 on SRV2.
И еще мы обновили БИОС контроллеров Qlogic QLA2340 с 1.47 до 1.52
Насколько важным может быть это отличие?
Спасибо всем за участие и помощь!
В результате долгих испытаний и экспериментов привожу результаты.
"Условно рабочей" на данный момент, можно назвать конфигурацию, которая будет указана ниже.
"Условно" - потому, что при запукске кластера с новейшей, на данный момент, версией драйверов MPIO, "отказ одного из путей будет приводить к краху" (со слов Андрея... Сами перепроверять это утверждение не решились).
А "рабочей" потому, что в данной конфигурации перетаскивание ресурсов или лог. дисков с узла на узел происходит корректно и перезагрузка(или поочередное включение) одного из узлов происходит нормально, так как надо!
Это то, о чем писал Андрей:
2 servers directly connected to F16F-R2021:
CH0 -> HBA0 on SRV1
CH0 -> HBA0 on SRV2
CH1 -> HBA1 on SRV1
CH1 -> HBA1 on SRV2
two LD are mapped to CH0 and CH1
MPIO is installed on each server
HBA - Qlogic QLA2340 + STORport driver 9.1.2.16
JP3 on each HBA is set to 1-2 position.
Hard Loop ID is set to 0 and 1 on SRV1 and to 2 and 3 on SRV2.
В этой конфигурации хочется добавить, что замена драйвера на Qlogic ver. 9.1.4.15 и установка параметра "Hard Loop ID" в программе "SANsurfer FC HBA Manager" в режим "авто" к видимым нам "глюкам" в работе не приводит. Эти параметры, я думаю, можно смело менять.
Еще один параметр, смена которого к к видимым "глюкам" в работе не приводит - это смена BIOS-а на контроллерах HBA QLogic 2340 c 1.47 до 1.52 и обратно.
А вот смена другого, не указанного здесь, параметра коренным образом влияет на описанные нами проблеммы!
При прошивке BIOS-а на массиве Infortrend F16F-R2021 ver.3.47.С05 - прекрасно происходит перезагрузка узлов, но не перетаскиваются ресурсы на другой узел в случае, если LD назначены через второй контроллер(SLOT B) на Infortrende.
При прошивке BIOS-а на массиве Infortrend F16F-R2021 ver.3.48.D04(самая новая версия на севодняшний день) - перезагрузка узлов зависает, но перетаскиваются все ресурсы и назначенные через второй контроллер(SLOT B).
При прошивке BIOS-а на массиве Infortrend F16F-R2021 ver.3.48.B05(промежуточная версия между 3.47.С05 и 3.48.D04) - прекрасно происходит перезагрузка узлов и перетаскиваются все ресурсы.
Так, что мы остановились пока на следующей конфигурации:
BIOS на массиве Infortrend F16F-R2021 ver.3.48.B05
BIOS на HBA QLogic 2340 ver. 1.52
драйвера Qlogic (Windows Server 2003 STOR Miniport 32-bit Driver 9.1.4.15)
драйвера MPIO от Infortrend ver. 1.16.3790.1609 от 12/16/2005
утилита для управления контроллерами QLogic QLA 2340 (SANsurfer FC HBA Manager for Windows 5.0.0 Build 17)
Ну и конечно ждем конца октября, когда выйдут новые драйвера МПИО для кластера MS!
В результате долгих испытаний и экспериментов привожу результаты.
"Условно рабочей" на данный момент, можно назвать конфигурацию, которая будет указана ниже.
"Условно" - потому, что при запукске кластера с новейшей, на данный момент, версией драйверов MPIO, "отказ одного из путей будет приводить к краху" (со слов Андрея... Сами перепроверять это утверждение не решились).
А "рабочей" потому, что в данной конфигурации перетаскивание ресурсов или лог. дисков с узла на узел происходит корректно и перезагрузка(или поочередное включение) одного из узлов происходит нормально, так как надо!
Это то, о чем писал Андрей:
2 servers directly connected to F16F-R2021:
CH0 -> HBA0 on SRV1
CH0 -> HBA0 on SRV2
CH1 -> HBA1 on SRV1
CH1 -> HBA1 on SRV2
two LD are mapped to CH0 and CH1
MPIO is installed on each server
HBA - Qlogic QLA2340 + STORport driver 9.1.2.16
JP3 on each HBA is set to 1-2 position.
Hard Loop ID is set to 0 and 1 on SRV1 and to 2 and 3 on SRV2.
В этой конфигурации хочется добавить, что замена драйвера на Qlogic ver. 9.1.4.15 и установка параметра "Hard Loop ID" в программе "SANsurfer FC HBA Manager" в режим "авто" к видимым нам "глюкам" в работе не приводит. Эти параметры, я думаю, можно смело менять.
Еще один параметр, смена которого к к видимым "глюкам" в работе не приводит - это смена BIOS-а на контроллерах HBA QLogic 2340 c 1.47 до 1.52 и обратно.
А вот смена другого, не указанного здесь, параметра коренным образом влияет на описанные нами проблеммы!
При прошивке BIOS-а на массиве Infortrend F16F-R2021 ver.3.47.С05 - прекрасно происходит перезагрузка узлов, но не перетаскиваются ресурсы на другой узел в случае, если LD назначены через второй контроллер(SLOT B) на Infortrende.
При прошивке BIOS-а на массиве Infortrend F16F-R2021 ver.3.48.D04(самая новая версия на севодняшний день) - перезагрузка узлов зависает, но перетаскиваются все ресурсы и назначенные через второй контроллер(SLOT B).
При прошивке BIOS-а на массиве Infortrend F16F-R2021 ver.3.48.B05(промежуточная версия между 3.47.С05 и 3.48.D04) - прекрасно происходит перезагрузка узлов и перетаскиваются все ресурсы.
Так, что мы остановились пока на следующей конфигурации:
BIOS на массиве Infortrend F16F-R2021 ver.3.48.B05
BIOS на HBA QLogic 2340 ver. 1.52
драйвера Qlogic (Windows Server 2003 STOR Miniport 32-bit Driver 9.1.4.15)
драйвера MPIO от Infortrend ver. 1.16.3790.1609 от 12/16/2005
утилита для управления контроллерами QLogic QLA 2340 (SANsurfer FC HBA Manager for Windows 5.0.0 Build 17)
Ну и конечно ждем конца октября, когда выйдут новые драйвера МПИО для кластера MS!
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 3 гостя