Это продолжение.
Походил по кабинету, посмотрел в окно, прикинул, что теперь делать. Ситуация нестандартная и неприятная. Утром вся работа организации встанет.
Я вроде бы неплохо всё настроенное знаю, но не понимаю, как решить проблему и самое главное, а в чём собственно проблема? Идея была смотреть дампы трафика, но я трезво оценивал свои возможности. Постоянной практики анализа дампов у меня нет. Что я там должен увидеть и понять?
Решил зайти с другой стороны и обратиться к поддержке хостера. Хоть я и не рассчитывал особо на помощь, так как ночью обычно все существенные проблемы откладывают на утро, но решил попытаться. С удивлением обнаружил, что сайт хостера открывается через раз, а личный кабинет вообще не работает.
Нашёл телефон горячей линии. Повезло, что он круглосуточный и там сидит живой человек. Он подтвердил, что вроде как реально наблюдаются какие-то проблемы и дал прямой контакт в ЦОД, куда можно позвонить ответственному человеку. Позвонил туда и он подтвердил, что наблюдаются сетевые проблемы с частью провайдеров. Это и объясняло то, что я сам и некоторые клиенты нормально подключались по VPN, а часть - нет.
Со слов сотрудника ЦОДа, они стали наблюдать проблемы примерно в то же время, что я получил уведомления от мониторинга. Точную причину они пока не знают, но подозревают, что это проблемы с ТСПУ Роскомнадзора. Они оставили им заявку и ждут рассмотрения.
В этот момент я расслабился и понял, что ничего делать больше не надо и можно спать. У меня всё работает нормально, а проблемы на другой стороне. Написал отбой другому администратору и лёг спать.
Утром встал, проверил, всё уже работает. Все VPNы поднялись, почтовая очередь рассосалась, сайты и всё остальное работают. В чём была реальная причина проблем - не знаю. Может ТСПУ, может что-то ещё.
Подобная история - наглядная иллюстрация минусов работы в поддержке инфраструктуры/эксплуатации. Никогда не знаешь, где возникнут проблемы. Постоянно сидишь на пороховой бочке. Даже если ты всё настроишь идеально, зарезервируешь, замониторишь, может возникнуть внешний фактор, а разбираться всё равно придётся тебе.
В общем, если столкнётесь с похожей проблемой, посмотрите в сторону этой истории. Если бы у меня сразу отвалилась VPN, я бы может и подумал в первую очередь на ТСПУ. Но у меня отвалились сайты, не работали подключения по SSH, часть почты не ходила, а VPNы отвалились уже потом после перезагрузки. Судя по всему установленные соединения держались, а новые уже не могли установиться. Хотя не везде и не со всеми.
#история #цод