ML-детектор аномалий: как алгоритм учится за 30 секунд
Во многие сервисы Яндекса встроена система мониторинга сбоев. Например, для Яндекс Go это может быть резкий рост количества отменённых заказов такси в одном из городов. Таких метрик очень много — за каждой следит программа-алерт, срабатывающая, если показатели выходят за пределы нормы. Это помогает поддерживать стабильность сервиса и быстро реагировать в случае неполадок.
Метрики постоянно меняются в зависимости от времени суток, сезона, погоды и других факторов. Поэтому разрабатывать для них алерты непросто — трудно понять, какое значение в какой момент времени является нормой, а какое — нет. Для решения этой проблемы в Техплатформе городских сервисов Яндекса создали ML-детектор аномалий, который сам отличает сбой от нормы.
Алгоритм работает циклично в режиме реального времени:
🔸 каждые 30 секунд обучает компактную модель на данных за последние пару недель
🔸 она сверяет последние показатели со своими предсказаниями
🔸 если есть значительные отклонения, модель отправляет сигнал об аномалии дежурным специалистам
🔸 в конце цикла модель удаляется, и всё повторяется сначала.
Детектор аномалий универсален — его применяют не только в Такси, но и в других сервисах Яндекса.
Подписывайтесь 👉 @techno_yandex