Обнаружение частных проблем
В крупных средах определенные аспекты вашей системы могут постоянно вызывать оповещения, которые не нужны, поскольку связаны с несерьезными известными проблемами, не требующими вмешательства человека. Такой предупреждающий шум может исходить от некритических компонентов или компьютеров сборки с низким уровнем ресурсов, но не находящихся в критическом состоянии.
Чтобы уменьшить такой шум предупреждений и избежать спама предупреждений, механизм причинно-следственной связи Dynatrace AI автоматически обнаруживает регулярно возникающие проблемы, возникающие из-за неоптимальных, хотя и приемлемых условий. Dynatrace выявляет такие частые проблемы, просматривая шаблоны проблем отслеживаемых объектов в течение заданных периодов наблюдения в один день и одну неделю.
Когда одна и та же проблема обнаруживается несколько раз в течение этих периодов, Dynatrace оценивает проблему на основе фактической серьезности нарушения порогового значения в сочетании с продолжительностью проблемы. Затем он сравнивает серьезность и продолжительность прошлых предупреждений о проблемах для одного и того же объекта и выдает предупреждения только в том случае, если серьезность проблемы увеличилась. Следующая диаграмма иллюстрирует этот процесс.
В крупных средах определенные аспекты вашей системы могут постоянно вызывать оповещения, которые не нужны, поскольку связаны с несерьезными известными проблемами, не требующими вмешательства человека. Такой предупреждающий шум может исходить от некритических компонентов или компьютеров сборки с низким уровнем ресурсов, но не находящихся в критическом состоянии.
Чтобы уменьшить такой шум предупреждений и избежать спама предупреждений, механизм причинно-следственной связи Dynatrace AI автоматически обнаруживает регулярно возникающие проблемы, возникающие из-за неоптимальных, хотя и приемлемых условий. Dynatrace выявляет такие частые проблемы, просматривая шаблоны проблем отслеживаемых объектов в течение заданных периодов наблюдения в один день и одну неделю.
Когда одна и та же проблема обнаруживается несколько раз в течение этих периодов, Dynatrace оценивает проблему на основе фактической серьезности нарушения порогового значения в сочетании с продолжительностью проблемы. Затем он сравнивает серьезность и продолжительность прошлых предупреждений о проблемах для одного и того же объекта и выдает предупреждения только в том случае, если серьезность проблемы увеличилась. Следующая диаграмма иллюстрирует этот процесс.
Проблемы, которые менее серьезны и имеют более короткую продолжительность, чем предыдущие предупреждения, считаются частыми проблемами, поэтому предупреждения для них подавляются. Дополнительные сведения о серьезности событий см . в разделе Типы событий .
Этот интеллектуальный подход к обнаружению и устранению частых проблем гарантирует, что вы будете получать предупреждения о проблемах, серьезность которых со временем возрастает, и в то же время избегаете спама предупреждений.
На страницах обзора сущностей, с которыми возникают частые проблемы, есть сообщение о частых проблемах.
Оценка частых проблем
На приведенной ниже диаграмме показана классификация проблем.
- Зеленый – нормальное рабочее состояние.
- Желтый — это событие, которое часто повторяется, но является нормальным для вашей системы. Это может быть, например, событие медленного диска, связанное с некритичным устройством. Эти события являются неработоспособными, но оповещение не требуется.
- Красный — это событие, которое влияет на нормальную работу и вызывает предупреждение.
Цель процесса оценки — классифицировать входящее событие как желтое или красное.
Процесс оценки является независимым для каждого типа события и каждого контролируемого объекта. Он начинается с двух наборов исторических событий:
- События за последние 24 часа
- События за последние 7 дней
И происходит следующим образом:
- 24-часовой набор сортируется двумя способами:
- Продолжительность (от самой короткой до самой длинной)
- Тяжесть (от менее до более тяжелой)
- Когда приходит новое событие, оно помещается в правильное положение в каждом из этих отсортированных наборов.
- Из каждого начального отсортированного набора создается подмножество, состоящее из событий справа от нового события (то есть более длинного и серьезного).
- Создается эталонный набор , состоящий из событий, которые появляются в обоих этих двух подмножествах.
- Размер эталонного набора рассчитывается как количество событий в эталонном наборе.
- Продолжительность эталонного набора вычисляется как сумма длительностей событий в эталонном наборе.
- Тот же эталонный набор создается из 7-дневного набора.
- Оцениваются следующие критерии:
- Если размер 24-часового эталонного набора равен или больше 3 , условие разрешается желтым цветом. В противном случае он разрешается как красный.
- Если продолжительность 24-часового эталонного набора равна или превышает 50 % от 24 часов (12 часов = 720 минут = 43 200 секунд), условие отображается желтым цветом. В противном случае он разрешается как красный.
- Если размер 7-дневного эталонного набора равен или больше 7 , условие разрешается желтым цветом. В противном случае он разрешается как красный.
- Если продолжительность эталонного набора за 7 дней равна или превышает 30 % от 7 дней (50,4 часа = 3 024 минуты = 181 440 секунд), условие отображается желтым цветом. В противном случае он разрешается как красный.
- Если хотя бы одно условие разрешается как желтое, событие классифицируется как желтое. В противном случае он классифицируется как красный и срабатывает предупреждение.
После первоначальной оценки каждое желтое событие оценивается снова с интервалом в 1 минуту, пока оно не станет красным или не будет деактивировано.
См. расширяемый раздел ниже для примера процесса оценки.
Пример
Для простоты в этом примере рассматривается только 24-часовой набор. В этом примере типом события является насыщение ЦП на узле.
Исторические события за последние 24 часа имеют следующую продолжительность и серьезность:
Событие 1 — 45 секунд, 95,5 %
Событие 2 — 15 секунд, 99 %
Событие 3 — 35 секунд, 98 %
Событие 4 — 30 секунд, 97 %
Событие 5 — 60 секунд, 96 %
Отсортированные наборы выглядят следующим образом:
Продолжительность: {Событие 2 , Событие 4 , Событие 3 , Событие 1 , Событие 5 }
Серьезность: {Событие 1 , Событие 5 , Событие 4 , Событие 3 , Событие 2 }
Прибывает новое событие: Событие НОВОЕ — 28 секунд, 95%. Он занимает следующие позиции в отсортированных множествах:
Продолжительность: {Событие 2 , Событие НОВОЕ , Событие 4 , Событие 3 , Событие 1 , Событие 5 }
Серьезность: { Событие НОВОЕ , Событие 1 , Событие 5 , Событие 4 , Событие 3 , Событие 2 }
Подмножества, состоящие из событий справа, выглядят так:
Продолжительность: {Событие 4 , Событие 3 , Событие 1 , Событие 5 }
Серьезность: {Событие 1 , Событие 5 , Событие 4 , Событие 3 , Событие 2 }
Следующие события появляются в обоих подмножествах и образуют эталонный набор: {Событие 1 , Событие 3 , Событие 4 , Событие 5 }.
Размер эталонного набора равен 4 . Состояние разрешается как желтый.
Длительность эталонного набора составляет 170 секунд. Состояние разрешается как красный.
Существует одно желтое состояние, поэтому событие НОВОЕ классифицируется как желтое и не вызывает оповещения.