Заметил тут что в логах переодически стали появляться сообщения об отвалах стораджа. Конфиг такой. 32 блэйда HP с двух портовыми HBA, два MDS 9509, + парочка серверов. Сторадж 3par S400 4 потра FC. все сервера видят сразу 4 порта. В логах стало проскакивать следующее:
Sep 22 09:20:02 ora kernel: device-mapper: dm-multipath: Failing path 8:32.
Sep 22 09:20:02 ora multipathd: 8:32: mark as failed
Sep 22 09:20:02 ora multipathd: mpath1: remaining active paths: 3
Sep 22 09:20:03 ora kernel: device-mapper: dm-multipath: Failing path 8:16.
Sep 22 09:20:03 ora multipathd: 8:16: mark as failed
Sep 22 09:20:03 ora multipathd: mpath1: remaining active paths: 2
Sep 22 09:20:11 ora multipathd: 8:32: tur checker reports path is up
Sep 22 09:20:11 ora multipathd: 8:32: reinstated
Sep 22 09:20:11 ora multipathd: mpath1: remaining active paths: 3
Sep 22 09:20:12 ora multipathd: 8:16: tur checker reports path is up
Sep 22 09:20:12 ora multipathd: 8:16: reinstated
Sep 22 09:20:12 ora multipathd: mpath1: remaining active paths: 4
Sep 22 09:23:16 ora kernel: device-mapper: dm-multipath: Failing path 8:32.
Sep 22 09:23:16 ora multipathd: 8:32: mark as failed
Sep 22 09:23:16 ora multipathd: mpath1: remaining active paths: 3
Sep 22 09:23:16 ora kernel: device-mapper: dm-multipath: Failing path 8:16.
Sep 22 09:23:17 ora multipathd: 8:16: mark as failed
Sep 22 09:23:17 ora multipathd: mpath1: remaining active paths: 2
Sep 22 09:23:23 ora multipathd: 8:32: tur checker reports path is up
Sep 22 09:23:23 ora multipathd: 8:32: reinstated
Sep 22 09:23:23 ora multipathd: mpath1: remaining active paths: 3
Sep 22 09:23:24 ora multipathd: 8:16: tur checker reports path is up
Sep 22 09:23:24 ora multipathd: 8:16: reinstated
Sep 22 09:23:24 ora multipathd: mpath1: remaining active paths: 4
Нашел еще один сервер с таким же сообщением в то же время. Что интересно, что отвалы происходят не на одном и том же порту стораджа или циске, а на абсолютно разных путях. Чем может быть вызвано? Таймауты в конфигах такие:
Execution Throttle: 32
LUNs per target: 256
Enable LIP Reset: Yes
Enable LIP Full Login: Yes
Enable Target Reset: Yes
Login Retry Count: 8
Port Down Retry Count: 1
Link Down Time-out: 30
Extended Error Logging: Disabled
параметры драверов:
[root@ora ~]# cat /sys/module/qla2xxx/parameters/ql2xmaxqdepth
32
[root@ora ~]# cat /sys/module/qla2xxx/parameters/qlport_down_retry
1
В чем может быть причина и как избежать таких косяков? Уменьшать размер очереди? Или увеличить таймауты? Происходит это не часто. В основном встречаются такие ошибки на оракловых серверах. В среднем раз в 5-7 дней.
переодические отвалы стораджа
Модераторы: Trinity admin`s, Free-lance moderator`s
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 8 гостей