Раз в несколько недель наблюдаем на одном из серверов CPU#X soft loсkup
Как правило под многопоточной java нагрузкой.
Наличие KVM модулей в ядре резко увеличивает вероятность локов (гарантированное выделение контекста).
Рекомендуемые многими hpet=off, acpi=off etc не влияют на проблему.
Сервер AMD 64, 16 ядер.
Linux version 2.6.24-27-server (buildd@yellow) (gcc version 4.2.4 (Ubuntu 4.2.4-1ubuntu4)) #1 SMP Wed Mar 24 11:32:39 UTC 2010
Soft Lock вначале возникает на любом из активных процессов: видел это на jsvc,posgresql, syslogd, kswapd, sshd... Затем эскалируется на еще несколько, а через 3-4 минуты система замирает, сохраняя способность кое-как отвечать на ICMP пакеты (не создаются новые процессы, сокеты и файлы).
Если погуглить на "Soft lockup CPU#", то получим интересную табличку (в тыс.)
__ один сокет
CPU#0 = 63
CPU#1 = 25
__2 сокета старые и 1 сокет новые многоядерные
CPU#2 = 135
CPU#3 = 120
__2 сокета
CPU#4 = 70
CPU#5 = 114
CPU#6 = 119
CPU#7 = 62
__2 сокета, новые многоядерные
CPU#8 = 58
CPU#9 = 99
CPU#10 = 69
CPU#11 = 97
__ 4 сокета
CPU#12 = 56
CPU#13 = 52
CPU#14 = 53
CPU#15 = 102
Вероятность soft lock на любом из ядер 16-ти 1/16, 8-ми ядерном - 1/8 и т.д.
Т.е. число страниц в гугле должно было бы дать Soft lockup CPU0 выше всех прочих.
Одно-двух сокетных серверов продается в сотни раз больше четырехсокетных.
IMHO, это распределение указывает именно на проблемы с многоядерными конфигурациями.
Зависимость от дистрибутива примерно соответствует его популярности.
У меня такое впечатление, что в ядрах выше 2.6.18 что-то крепко поломали с переключениями контекста ядром.
А вам встречалось такое, господа?
2.6.xx kernel CPU# xx Soft loсkup
Модераторы: Trinity admin`s, Free-lance moderator`s
Re: 2.6.xx kernel CPU# xx Soft loсkup
Да вроде тут популярно рассказано отчего сие и как лечить: http://kbase.redhat.com/faq/docs/DOC-17358
Re: 2.6.xx kernel CPU# xx Soft loсkup
Отказ в открытии новых сокетов и омертвение всего, даже локальной консоли, не вполне соответствует фразе "They do not indicate a problem with the system".http://kbase.redhat.com/faq/docs/DOC-17358 писал(а):These are informational messages indicating that a CPU did not respond to a softlockup timer within the timer window (currently 10 seconds on Red Hat Enterprise Linux). They do not indicate a problem with the system.
Т.е. там просто таймаут был превышен и это в лога попадало.
А тут - эскалация блокировок, которая разрастается за 3-4 минуты, вызывает полный ступор системы и остается минимум на 4 часа (дольше не проверял).
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 13 гостей