- Топ-10 причин падения серверов
- Проблемы с сервером — что делать?
- Причины сбоя и поломок сервера, типичные неисправности:
- Как устранить и предотвратить проблемы с сервером
- Срочный ремонт серверов, что можно сделать
- Обслуживание серверов
- Упавшие сервера: самые необыкновенные истории
- Самые частые причины падения серверов и отказа сервисов
- 1. Проблемы “внешнего мира”.
- 2. Начальная школа хакеров.
- 3. Человеческий фактор.
- 4. Не железное железо.
- 5. Температура.
- Как с этим бороться?
Топ-10 причин падения серверов
— Ты чего такой грустный?
— Да вот сервер вчера «упал».
— Ну да, ты что его до сих пор не «поднял»?
— Поднял, но он со стола упал.
По статистике, 60% «косяков» лежит на плечах сотрудников компании. Из них основной причиной является небрежность или халатность (39%), а 43% были вызваны успешными вредоносными атаками, не требующими глубоких знаний и навыков. Более подробно об этом я уже писал об этом в предыдущей статье, а сегодня я хочу предложить очередной чарт: «Топ 10 — Как падают серверы?». Или почему «падают»?
10 место. Резервное копирование. Системные администраторы бывают двух видов: которые делают резервные копии и которые пока не делают резервные копии. Бывает еще и третий вид, но очень редкий: системные администраторы, которые проверяют свои резервные копии. На них вся надежда.
9 место. Источники бесперебойного питания. Стандартная ситуация: погас свет, а вместе с ним «погас» и сервер баз данных. Свет появился, а сервер в сети — нет. А вместе с ним не появились и 200 терабайт информации, нажитой непосильным трудом и упорством. Компания приостановилась на несколько дней, а вместе с ней приостановилось и действие трудового договора системного администратора. А казалось бы, поменяй батарейки, настрой автоматическое отключение…
8 место. Оборудование. Вместо серверных платформ используются обычные рабочие станции. Бывали случаи, когда база 1С лежала у бухгалтера на рабочем компьютере на диске D, и даже резервных копий никто не делал! Вопиющая смелость!
7 место. Использование нелицензионного ПО. Был случай, когда один товарищ пытался убедить меня в то, что весть его софт абсолютно лицензионный. Дабы подтвердить свои слова, мне был продемонстрирован лицензионный компакт-диск со всем софтом, купленный в фирменной палатке на Ждановичах. Чек прилагался.
6 место. Плановые замены HDD. Примерно раз в два-три месяца слышу новую историю про рассыпавшийся RAID. Для серверных винчестеров ресурс составляет не более 4 лет. Еще одной частой ошибкой является использование дешевых, не серверных винчестеров, что также весьма чревато. Еще я рекомендую при покупке нового оборудования закупать парочку винчестеров в запас, на всякий пожарный.
5 место. Запуск нескольких сервисов на одном сервере. Говорят, системные администраторы не смешиваю. Все они смешивают! Особенно любят администраторы смешивать контроллеры домена с чем-нибудь еще, например, с MS SQL и с 1C, файловым сервером, прокси-сервером и др. Лет 5 назад это не вызвало бы больших нареканий, но сегодня нравы поменялись, смешивать как минимум, неприлично, как максимум, небезопасно.
4 место. Встроенная учетная запись администратора. Как взломать сервер: берем шару и подбираем пароль к встроенной учетной записи администратора. Если пароль состоит из 4 цифр – пара минут, и сервер наш! А всего-то нужно было учетную запись отключить, а еще лучше и переименовать, да через групповые политики.
3 место. Мониторинг. Что такое мониторинг? Это вовсе не зайти раз в неделю\месяц\год в консоли логи посмотреть. Мониторинг — это когда тебе приходит уведомление, что что-то не так, задолго до первого звонка пользователя. В идеале, пользователь вообще не должен успеть позвонить. К сожалению, у нас все больше через консоль.
2 место. Брандмауэр. Какими бы крепкими ни были стены города, они не защитят жителей от больного чумой внутри периметра. Конечно, все дома в городе забором не обнесешь, а вот улочку с серверами обгородить вполне возможно, более того, сисадмины могут сделать это бесплатно и быстро, а если повезет, то и качественно.
1 место. Всемогущий Administrator. Нужно попасть на сервер, запустить сервис MS SQL, сделать бэкап, установить тоталкомандер пользователю, залогиниться на свой комп – бесстрашный domain\Administrator может все! У него сложный пароль – P@ssword — который знает всего человек 10! Он не боится вирусов, которые могут расползаться по сети от его имени! Он может все и не боится ничего!
В очередной раз мы видим, как данные статистики сходятся с жизненными реалиями. А как дела обстоят у вас?
Андрей Махнач
руководитель отдела инфраструктурных решений СООО «ДПА»
Источник
Проблемы с сервером — что делать?
Как могут выглядеть типичные сбои сервера:
- сервер вообще не запускается
- проблема с загрузкой сервера — сервер запускается, но показывает “синий экран смерти” (BSOD)
- сервер запускается, на нем загружается операционная система, но некоторые сервисы не работают (например, сайт)
- произошел сбой связи с сервером по сети
- сервер сильно нагревается при работе
- постоянные перезагрузки без видимых причин
- заметно падает скорость выполнения операций
Причины сбоя и поломок сервера, типичные неисправности:
- Физическое отключение — вероятнее всего, причиной неисправности серверов являются проблемы с аппаратной частью или пропало электричество. В первом случае понадобится ремонт или замена отказавшей детали, быстро исправить это вряд ли получится. Во втором попробуйте сначала загрузить/перезагрузить сервер, когда электричество появится — есть шансы, что его работоспособность восстановится.
- Сервер запускается, но находится не в сети, клиентские приложения пытаются к нему подключиться и выдают ошибку подключения к серверу — неожиданная проблема связи с сервером может возникнуть из-за неполадок в сетевой карте сервера или из-за неправильных сетевых настроек (неправильный IP-адрес, маска подсети, шлюз, проблема в сетевых протоколах). Также есть возможность, что ошибка соединения с сервером вызвана неисправностью сетевого кабеля или другого сетевого оборудования — роутера/свитча/хаба.
- Причиной отключения сервера может быть поломка одной из комплектующих, согласно статистике, чаще всего “летят” жесткие диски HDD, материнские платы, адаптеры, процессоры.
- Ошибки в конфигурации — многие типичные неисправности сервера являются прямым следствием ошибок в его настройке, для их устранения понадобится помощь квалифицированного системного администратора.
- Причиной сбоя сервера может быть перегрузка системы, вызванная внутренними процессами, например, активностью пользователей или неудачно настроенным снятием резервных копий, или DOS/DDOS-атакой снаружи.
- Запуск сервера и сбой запуска? Возможно, в этом виновен перегрев сервера.
Как устранить и предотвратить проблемы с сервером
Предотвратить поломки сервера значительно проще и дешевле, чем устранять, когда они уже проявились.
Вот несколько требований, выполняя которые вы сможете снизить вероятность отказа вашего сервера:
- Если у вас собственная серверная, организуйте в ней качественное охлаждение и старайтесь держать ее всегда закрытой, чтобы туда не проникала лишняя пыль. Обязательно используйте источники бесперебойного питания.
- Регулярно проводите профилактическое обслуживание серверов — чистку от пыли, замену термопасты и т.д.
- Используйте специализированное ПО для мониторинга, чтобы отслеживать состояние сервера и вовремя заметить проблемы работы сервера.
- У вас обязательно должно быть настроено резервное копирование и восстановление данных сервера, чтобы предотвратить потерю важной информации в случае, если сервер все же “упадет”. Регулярно делайте бекапы, а если есть возможность — используйте отказоустойчивый кластер, тогда при сбоях в работе сервера его работа будет распределена между остальными серверами в кластере.
Если несмотря на все предпринятые меры у вас все же возникли проблемы с сервером, что делать?
В некоторых случаях можно попробовать самостоятельно провести диагностику, чтобы понять, что произошло и как исправить проблемы с сервером:
- Просмотреть логи событий сервера — возможно, по ним удастся понять причину неполадок.
- Физически осмотреть комплектующие сервера, иногда их поломки бывают заметны визуально.
- Если это возможно, запустить тест памяти.
- Запустить проверку жестких дисков на наличие ошибок.
- Проверить сервер антивирусом. Это может помочь в устранении неисправностей файлового сервера, часто такие неисправности являются результатом работы вредоносного ПО.
- Проверить загрузку процессора, состояние памяти, использование дискового пространства с помощью специализированного ПО.
Срочный ремонт серверов, что можно сделать
Как устранить проблему с сервером. Если у вас на сервере произошел сбой, а его простой или потеря данных грозят компании серьезными убытками, лучше не пытаться исправить все самостоятельно, а сразу обратиться к специалистам за помощью, это будет быстрее и эффективнее.
Например, неквалифицированная попытка восстановить данные может вместо этого окончательно их уничтожить.
Обслуживание серверов
Инженеры ГК «Интегрус» уже много лет занимаются сервисным обслуживанием и ремонтом серверов, к нам всегда можно обратиться за бесплатной консультацией, аудитом, а если понадобится — то и за срочным ремонтом серверов.
Мы выполняем весь перечень ремонтных работ, работ по восстановлению данных с сервера при аппаратном или программном сбое, восстановлению сервера из бэкапа, сервисному обслуживанию, настройке защиты сервера от взлома, профилактике и мониторингу, модернизации, созданию серверной «под ключ».
Источник
Упавшие сервера: самые необыкновенные истории
Подводные камни в SEO продвижении молодых сайтов
Самые частые причины падения серверов и отказа сервисов
1. Проблемы “внешнего мира”.
“Однажды мы бухали в одной большой телекоммуникационной компании. Зимой. На втором этаже. А прямо под нами, на первом, находился узел связи одного большущего банка. Так вот. Побухали, и ушли. Только форточку забыли закрыть. Была зима и минус 40 градусов. Все это было перед праздником 23 февраля. Три дня форточка открыта была, напомню, минус 40. Ну и разморозились батареи к чертям. И залило узел связи этого большущего банка. Так пенсионеры трех регионов получили пенсию на день позже. Бывает”.
2. Начальная школа хакеров.
“Году примерно в 2011 в один из наших серверов хостинга прилетела крупномасштабная по тем временам DDoS-атака. Атакующие, вероятно, были крайне заинтересованы в неработоспособности информационного ресурса одного из наших клиентов, но какого конкретного сайта, выяснить было крайне сложно. Задача атаки сводилась к тому, чтобы полностью забить все наши каналы паразитным трафиком. Да настолько, чтобы полностью парализовать вообще всё, что у нас размещалось. Мы довольно быстро изолировали атакованный сервер и вынесли его внешнюю связность в отдельный канал, чтобы все остальные серверы работали без проблем. На сервере размещалось более тысячи клиентов и почти две тысячи сайтов, и какой именно из них был атакован сетевым флудом неясно. Перебои в работе продолжались больше суток. В 2017 году я смотрю на такие атаки совершенно иначе. Нападений подобного уровня у нас иногда случается по несколько штук в неделю и большинство из них фильтруется автоматикой без вмешательства наших администраторов. Но путь от первой такой атаки и до сегодняшнего состояния занял 6 лет, и до сих пор мы периодически что-то совершенствуем”.
3. Человеческий фактор.
“Давным давно одна компания давала приходящим сотрудникам в свободный доступ компьютеры, поскольку с такой техникой тогда было напряженно. Можно было зайти в интернет ненадолго, договоры поправить, распечатать чего по работе. И стоял у них, как обычный комп — “главный”, это был сервер, с договорами и т.п. А чего пропадать рабочему месту? Кто что сделает без прав админа? Так вот, одной девочке по учебе надо было научиться Linux ставить, ну и пришла она в эту компанию, попросила помочь, говорит: “Можно я у вас потренируюсь?”. Админ ей рукой на компы махнул и сказал: “Ставь, что хочешь, у нас все равно все тачки с сервера зеркалятся, потом оно “бутнется” оттуда и все”. И девочка поставила свой Linux. На сервер! Научилась, что тут скажешь. Сказала, что он самый большой и красивый был”.
“Во время проведения техработ в дата-центре инженер может выключить или перезагрузить не тот сервер или коммутатор, воткнуть провод не туда, системные администраторы выкатят не те обновления и бесконечное множество подобных примеров”.
4. Не железное железо.
В одном банке был сервер с материнской платой “Intel SE7520BD2”, и в один прекрасный летний день в этом сервере вдруг сдохло 8 гигабайт памяти из 32. Инженеры банка, конечно, быстро поменяли память, которая снова сдохла через 3 минуты после запуска сервера. Инженеры снова поменяли память и дохнуть начало уже по 16 гигабайт. Так инженеры спалили 192 гига памяти, после чего решили-таки почитать эти ваши “интернеты” и обратились к поставщику. А все произошло потому, что не прочитали про отзывную кампанию на эти материнские платы, в которых попадались бракованные конденсаторы в контроллере питания памяти”.
5. Температура.
“Купил один заказчик себе дорогущие серверы “IBM Power” под SAP, но куда же их девать? Шумят да греются. Нужен ЦОД! Нашли комнатку 4 квадратных метра, под одну стойку, поставили два кондиционера. Помолились и запустили. Тут на вторые сутки посыпались “алярмы”! Смотрят, железки работают кондиционеры дуют холодом, а “алярмы”, словно по расписанию, раз в 45 минут. В общем — магия! Искали причину — ничего не нашли, так как хозяйство на гарантии. Позвали спецов — та же история! Через месяц стало ясно, что все из-за малой площади помещения. “Power” регулярно скидывал кучу тепла по сработке автоматики, от чего случался перегрев по датчику температуры внешнего воздуха в помещении, в результате чего кондиционеры начинали все неистово охлаждать. Пока охлаждали — “алярмы” сыпались”.
Статус «мало показов» — все, что вы хотели знать
Как с этим бороться?
“Значительную помощь в диагностике и прогнозировании проблем составляют системы мониторинга, снятие и отображение различных метрик с компонентов работающих систем, использование тестовых стендов для обкатки вносимых изменений на аналоге работающей системы и тому подобное, а также дублирование ключевых компонентов, использование кластерных решений и так далее”.
“Основной метод борьбы с этим явлением — грамотный выбор инженерных решений при создании ЦОД и квалифицированная эксплуатация оборудования, в т.ч. внедрение систем проактивной диспетчеризации”.
“Нужно читать руководящие документы и стандарты. И следовать им. Понимаю, это трудно, но индустрии «дата-центров» (ранее — мейнфреймов и т.п.) более 50 лет. И очень умные люди уже подумали о том, что и как нужно делать. Наступили на грабли и описали все случаи, которые с ними случались. Главный руководящий документ называется TIA-942. И этот документ, кажется, даже переведен на русский. Если вы никогда не слыхали об этом документе, то никогда, ни при каких обстоятельствах даже не думайте заводить «собственный сервер». Просто отдайте эту функцию профессионалам. Проверить профпригодность можно вопросом: «а что такое TIA-942?».
“Думаю, что пока эту проблему не побороть никак. Современный тренд такой, что от падения серверов защищаются тем, что строят распределённые системы, которые не обращают на это внимания, потому что работают сразу на большом количестве оборудования”.
Источник