Основным инструментом у нас является, конечно, Zabbix. Он позволяет реализовывать как инфраструктурный мониторинг, так и функциональный. Кроме того, широкие возможности кастомизации позволяют использовать его в нестандартных целях – для мониторинга логов, сбора показателей для базы данных управления конфигурацией (CMDB) и др. Zabbix позволяет реализовывать агрегацию событий, определяя частичные отказы, присваивая им соответствующие приоритеты. Одно дело, когда недоступна единственная нода, другое дело, когда несколько узлов кластера полностью зарезервированы. Исходя из приоритетов, администраторы предпринимают определённые действия для устранения наиболее критичных проблем. Накоплен опыт и в области автоматической реакции на инциденты – Zabbix может не только обнаружить проблему, но и самостоятельно её устранить, если проблема шаблонная - например, продлить SSL сертификат или перезапустить «зависшее» приложение. Впрочем, современные тенденции заставляют изучать и применять и другие инструменты – такие как Prometheus и Grafana. Отметим, что Zabbix является полностью законченной системой, которая предоставляет веб-инструмент для настройки и визуализации данных, а Prometheus - это всего лишь база данных со значениями для метрик. Для настройки и визуализации используются средства, которые являются сторонними или разработанными самостоятельно. Довольно часто Prometheus настраивают в связке с Grafana. Подобные проекты мы выполняли для банков и страховых компаний.
Мы регулярно сталкиваемся с неоднозначными ситуациями, когда стандартным анализом логов приложений определить проблему невозможно. Так, у одного из заказчиков удалось доказать поставщику ИТ-решения, что активность антивируса вызывает замедление в работе базы данных, возникновение блокировок и очередей запросов. На другом проекте путём расширения системы мониторинга удалось определить, что причиной сбоев стало нетипичное поведение пользователей, пытавшихся работать в обход пользовательского интерфейса. Проблема была успешно решена после возвращения к обычному режиму работы.
Руководитель службы внедрения и сопровождения, компания «ФОРС – Центр разработки» (ГК ФОРС) Дмитрий Раков