Большое время ответа
Модераторы: Trinity admin`s, Free-lance moderator`s
-
- Junior member
- Сообщения: 7
- Зарегистрирован: 31 май 2016, 11:21
- Откуда: Екатеринбург
Большое время ответа
Здравствуйте.
Появилась проблема: на серверах включенных в сановскую сеть время ответа от дисков в системе стало достигать в пиковых значениях несколько секунд. Точно такая же сеть организована в другом здании и все работает нормально (только в другом здании хостов немного больше). Изначально думал проблема в прошивках и драйверах на серверах: установка тестового сервера с последними прошивками, драйверами- не помогло.
Итак в общих словах об организации SAN:
Каждый хост (IBM blade 7873 и 7870, в основном все на ОС Windows Server) соединен с СХД (storwise v7000/4 FS порта-8 Gbps) через 4 FC свитча (2хBrocade 5470/8 Gbps и 2xBrocade 300/8 Gbps). Организованы две фабрики (А и B). Полгода назад ставили последние прошивки на все - хосты, схд, свитчи.
Месяца два назад настроил мониторинг (stor2rrd) - ошибок не нашел, не силен в данной области.
Прошу знатоков помочь с диагностикой и выявлением проблемы, если нужна схема, то смогу попозже нарисовать и выложить.
Появилась проблема: на серверах включенных в сановскую сеть время ответа от дисков в системе стало достигать в пиковых значениях несколько секунд. Точно такая же сеть организована в другом здании и все работает нормально (только в другом здании хостов немного больше). Изначально думал проблема в прошивках и драйверах на серверах: установка тестового сервера с последними прошивками, драйверами- не помогло.
Итак в общих словах об организации SAN:
Каждый хост (IBM blade 7873 и 7870, в основном все на ОС Windows Server) соединен с СХД (storwise v7000/4 FS порта-8 Gbps) через 4 FC свитча (2хBrocade 5470/8 Gbps и 2xBrocade 300/8 Gbps). Организованы две фабрики (А и B). Полгода назад ставили последние прошивки на все - хосты, схд, свитчи.
Месяца два назад настроил мониторинг (stor2rrd) - ошибок не нашел, не силен в данной области.
Прошу знатоков помочь с диагностикой и выявлением проблемы, если нужна схема, то смогу попозже нарисовать и выложить.
Хм-ммм...
Проверьте состояние носителей - это, пожалуй, единственный элемент системы, которому "положено" деградировать со временем.
Скажем, какой-то из них ещё недостаточно "всё", чтобы его отверг контроллер, но уже достаточно поёрзан для того, чтобы давать задержку, тормозящую весь том или рейд-группу (бо принцип "по последнему" для латентности никто не отменял).
Скажем, какой-то из них ещё недостаточно "всё", чтобы его отверг контроллер, но уже достаточно поёрзан для того, чтобы давать задержку, тормозящую весь том или рейд-группу (бо принцип "по последнему" для латентности никто не отменял).
-
- Junior member
- Сообщения: 7
- Зарегистрирован: 31 май 2016, 11:21
- Откуда: Екатеринбург
Re: Хм-ммм...
Дело в том что тормозит на разных томах размещенных на разных дисках:ssd/10k/15k. Не подскажите способ проверки?Umlyaut писал(а):Проверьте состояние носителей.
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Большое время ответа
1. Зачем 4-е свича?blacksmithov писал(а):соединен с СХД (storwise v7000/4 FS порта-8 Gbps) через 4 FC свитча (2хBrocade 5470/8 Gbps и 2xBrocade 300/8 Gbps). Организованы две фабрики (А и B). Полгода назад ставили последние прошивки на все - хосты, схд, свитчи.
2. Как подключен Сторвайз
3. Есть ли ошибки в логах Сторвайза?
4. Посмотрите ошибки в логах винды, может там что интересного найдете
П.С. укажите город в профиле.
-
- Junior member
- Сообщения: 7
- Зарегистрирован: 31 май 2016, 11:21
- Откуда: Екатеринбург
Re: Большое время ответа
извиняюсь за долгие ответы... город указал.Stranger03 писал(а):1. Зачем 4-е свича?blacksmithov писал(а):соединен с СХД (storwise v7000/4 FS порта-8 Gbps) через 4 FC свитча (2хBrocade 5470/8 Gbps и 2xBrocade 300/8 Gbps). Организованы две фабрики (А и B). Полгода назад ставили последние прошивки на все - хосты, схд, свитчи.
2. Как подключен Сторвайз
3. Есть ли ошибки в логах Сторвайза?
4. Посмотрите ошибки в логах винды, может там что интересного найдете
П.С. укажите город в профиле.
1. Схема чуть больше чем я описал + в сторвайзе я мало портов указал (не 4, а 8 ). Через brocade 300 дополнительно цепляется еще одна СХД (но она не учувствует в описанной мною проблеме, так как с нее тома не посылаются на эти сервера). Схема изначально составлена для максимального резервирования работы сановской сети.
2. сторвайз подключен к двум Brocade 300 всеми 8-мью линками. каждый контролер имеет по два линка в каждую из двух фабрик.
3. ошибок на сторвайзе нет, но заметили вчера ошибки на одном из портов свитча который установлен в блэйд. отключили порт- понаблюдаем за системой (crc errors -14316558).
4. смотрели уже - ничего не нашли.
http://pixs.ru/showimage/1jpg_7089499_22347017.jpg
http://pixs.ru/showimage/2jpg_6892196_22347022.jpg
на схеме зеленые линии- фабрика а, синие-фабрика b
Вчера мысль появилась, что может быть мы не учитываем какую-то дополнительную нагрузку на сторвайз. Но как это сделать я не знаю. Возможно все проще - СХД не справляется. Стандартный мониторинг в сторвайзе как мне кажется убог, а в stor2rdd куда смотреть и как анализировать я не пойму.
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Большое время ответа
У вас много чего может быть. От банально не правильной настройки фабрик и сегментации (хоть я и не понимаю, зачем она вам в этой схеме), до проблем с софтом, драйверами и так далее. Не видя общую картину, нам очень сложно что-то посоветовать. Может проще поговорить с нашими ребятами по телефону? По любому надо делать комплексную диагностику.blacksmithov писал(а):Вчера мысль появилась, что может быть мы не учитываем какую-то дополнительную нагрузку на сторвайз. Но как это сделать я не знаю. Возможно все проще - СХД не справляется. Стандартный мониторинг в сторвайзе как мне кажется убог, а в stor2rdd куда смотреть и как анализировать я не пойму.
По поводу мониторинга Сторвайза - задам вопрос Егору. Он подскажет как, где и что смотреть.
По поводу мониторинга серверов, неплохо бы собрать счетчики и посмотреть, что у вас там происходит. Для начала можно посмотреть вот тут: http://3nity.ru/viewtopic.php?f=28&t=13388
Re: Большое время ответа
Если на портах SAN коммутатора "много" ошибок, то проблема может скрываться за "испорченной" SFP или кабелем. Эти элементы выходят из строя крайне редко, если их не "передёргивают", но всё же бывает.
Мониторинг производительности на сторвайзе - довольно не простое дело. Как вы могли заметить, то счетчики из web-интерфейса дают довольно общую картину, со стороны СХД. Чуть более расширенную картину можно получить через CLI. Но при стоит учитывать, что сторвайз не хранит логи производительности. Поэтому нам доступно только 5 прошедших минут (кажется именно столько).
Поэтому проще и надежнее анализировать производительность дисковой системы косвенным путём, через логи производительности ОС.
Мониторинг производительности на сторвайзе - довольно не простое дело. Как вы могли заметить, то счетчики из web-интерфейса дают довольно общую картину, со стороны СХД. Чуть более расширенную картину можно получить через CLI. Но при стоит учитывать, что сторвайз не хранит логи производительности. Поэтому нам доступно только 5 прошедших минут (кажется именно столько).
Поэтому проще и надежнее анализировать производительность дисковой системы косвенным путём, через логи производительности ОС.
-
- Junior member
- Сообщения: 7
- Зарегистрирован: 31 май 2016, 11:21
- Откуда: Екатеринбург
Re: Большое время ответа
Это порт свитча вставленного в блэйд - здесь патч-корда точно нет, а передергивание происходить лишь во время изымания и вставления сервера-лезвия в шасси.Don_Fear писал(а):Если на портах SAN коммутатора "много" ошибок, то проблема может скрываться за "испорченной" SFP или кабелем. Эти элементы выходят из строя крайне редко, если их не "передёргивают", но всё же бывает.
Мониторинг производительности на сторвайзе - довольно не простое дело. Как вы могли заметить, то счетчики из web-интерфейса дают довольно общую картину, со стороны СХД. Чуть более расширенную картину можно получить через CLI. Но при стоит учитывать, что сторвайз не хранит логи производительности. Поэтому нам доступно только 5 прошедших минут (кажется именно столько).
Поэтому проще и надежнее анализировать производительность дисковой системы косвенным путём, через логи производительности ОС.
Поэтому и настроили сервис stor2rrd, который по CLI выдергивает каждые пять минут инфу и сохраняет у себя. Через вэб-интерфейс мы потом смотрим на графики/таблицы.
Re: Большое время ответа
А логи производительности сторвайза можете скинуть?
-
- Junior member
- Сообщения: 7
- Зарегистрирован: 31 май 2016, 11:21
- Откуда: Екатеринбург
Re: Большое время ответа
Это которые показываются в самом сторвайзе?Don_Fear писал(а):А логи производительности сторвайза можете скинуть?
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Большое время ответа
blacksmithov
Don_Fear
Да созвонитесь уже через Андрея Латыпова,
Don_Fear
Да созвонитесь уже через Андрея Латыпова,

Re: Большое время ответа
На сколько я понял, наш менеджер, Андрей, с вами уже связался. Могли бы вы ему выслать логи производительности.
Лучше, раз вы их собираете через stor2rrd, то в момент "пиковой" нагрузки.
Лучше, раз вы их собираете через stor2rrd, то в момент "пиковой" нагрузки.
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 9 гостей