Послушал недавно одно из выступлений с Zabbix Summit 2025 на тему того, за чем нужно следить в самом Zabbix, чтобы системе мониторинга не стало плохо.
В выступлении он рассказал в основном теорию, которая мне показалась интересной в формате списка пунктов, по которым стоит пройтись, чтобы навести порядок у себя, поэтому я решил кратко законспектировать выступление и для себя, и для вас. Какие-то очевидные вещи, типа проверки версии Zabbix и просмотр лога сервера я опустил.
1️⃣ Проверяем все хосты, которые давно недоступны. Либо исправляем проблему с доступом к хосту, либо удаляем его из мониторинга, если больше не нужен.
2️⃣ То же самое относится к неподдерживаемым айтемам. С ними надо разобраться - либо починить, либо отключить, если уже неактуально.
3️⃣ Обратить внимание на все айтемы, где стоят слишком частые проверки, например, чаще 30 секунд. Это может создавать очень серьёзные нагрузки. В выступлении не сказано, но я добавлю, что для некоторых проверок имеет смысл добавить предобработку, которая будет отбрасывать неизменившиеся значения. Для некоторых данных это может серьёзно экономить место в базе. Например тогда, когда вы часто следите за неизменным состоянием айтема, чтобы сразу заметить изменение. Нет смысла хранить результаты всех проверок.
4️⃣ Проверяем триггеры в статусе UNKNOWN. Часто они связаны с неактивными айтемами, но не всегда. Могут быть и другие ошибки.
5️⃣ Проводим аудит стандартных шаблонов и по возможности обновляем устаревшие. Это на самом деле серьёзная и объёмная задача. В последних релизах её стараются упростить и облегчить, но всё равно работы с ней много и часто ручной. Но следить тем не менее надо. Новые шаблоны зачастую удобнее и информативнее. Хотя если вас устраивают старые, то особых проблем не будет, если не обновите. Отдельно напомню, что с обновлением сервера шаблоны автоматически не обновляются.
6️⃣ Если есть возможность запустить мониторинг каких-то хостов через Zabbix Proxy, сделайте это. Это и основной сервер разгружает, и для сильно удалённых хостов делает мониторинг более точным.
7️⃣ Проверьте количество запущенных Pollers, чтобы хватало с запасом. По моему опыту чаще всего по мере роста сервера начинает не хватать стандартных параметров поллера для пингов.
8️⃣ Проверьте размер кэшей в настройке сервера. По мере роста нагрузки кэш надо тоже увеличивать от стандартных значений. Если что, его нехватка будет отражаться в логе сервера.
9️⃣ Проверить настройку шифрования между хостами и сервером. Желательно, чтобы она была настроена, особенно при передаче данных по незащищённым сетям, типа интернета.
От себя я бы добавил ещё несколько моментов, которые опустил выступающий, потому что это будут скорее всего ручные проверки, а у них работает ПО с автоматическими:
▪️Провести аудит того, что пишется в базу данных и что там занимает место. Возможно почистить её, если есть такая потребность. У меня была статья по этой теме - Что занимает место в базе данных Zabbix.
▪️Проверка бэкапов, и технически, и логически. Иногда бэкапят только базу данных, так как основное там. Но если не бэкапить конфигурацию сервера, и тем более внешние скрипты, которые используются, то потом будет очень хлопотно всё это восстанавливать. Я сам не раз на это натыкался. Думаю, зачем бэкапить, и так все скрипты либо на сайте, либо в гите, либо тут в заметках. Но на деле потом всё это собирать и снова запускать очень хлопотно. Лучше все забэкапить и положить рядом с дампом базы.
▪️Аудит оповещений. В них может быть реализована сложная система уведомлений, в которой можно напутать и часть уведомлений потерять или отправить в неработающие каналы. В этом желательно периодически вручную разбираться, удалять лишнее или упрощать. Тем более если вы принимаете в управление настроенную не вами систему.
#zabbix