ВысокаяДоступность для дата-центров

Материал из Dynatrace
Версия от 20:47, 26 января 2023; YaPolkin (обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Dynatrace ВысокаяДоступность — это готовое автономное решение, обеспечивающее почти нулевое время простоя и позволяющее продолжать мониторинг без потери данных в сценариях отработки отказа.

Это решение обеспечивает экономию средств с точки зрения выделения вычислительных ресурсов и хранилища за счет устранения необходимости в отдельных резервных хостах аварийного восстановления и соответствующей инфраструктуре для хранения и передачи данных резервного копирования. Хотя дополнительные узлы в одноранговом центре обработки данных (ЦОД) положительно влияют на вычислительную мощность, доступную для кластера, это влияние нелинейно.

При планировании емкости узлы в дополнительном дата-центре следует рассматривать как избыточные, а не как узлы с увеличенной емкостью. Это связано с тем, что дополнительный дата-центр будет иметь копию всех данных Cassandra и Elasticsearch из исходного дата-центра.

Максимальное количество узлов, поддерживаемых кластерами высокой доступности Dynatrace, равно 30 (15 узлов на дата-центр).

Эффективный минимум — 6 узлов (3 узла на дата-центр). Оба дата-центра в кластере должны иметь симметричный размер.

Как исправить сегментированные кластеры

Если одна часть кластера теряет связь с другой частью кластера, это не обязательно означает, что эта часть кластера недоступна. Проблема может заключаться в сбоях подключения. Вам нужно определить, какая часть кластера будет выступать в качестве уцелевшей.

Короткие, до 3 часов, сбои в сети между центрами обработки данных восстанавливаются автоматически. Чтобы избежать несогласованности данных, в случае более длительных простоев мы рекомендуем отключать серверную службу на всех узлах в затронутом центре обработки данных. Вы можете запустить службы, когда сетевое подключение снова станет стабильным.

Чтобы справиться с ситуацией, когда одна часть кластера недоступна, Dynatrace Контроллер Задач отслеживает работоспособность всех узлов и автоматически назначает одну часть кластера основной (выживающей). Во время восстановления это обозначение используется для определения способа повторной синхронизации всех частей кластера. Это означает, что Dynatrace ВысокаяДоступность не поддерживается для полностью автономных управляемых кластеров.

Разделение и репликация данных

Используя виртуальные стойки, Dynatrace ВысокаяДоступность хранит три копии всех данных конфигурации, метрик и сеансов пользователей в каждом дата-центре. Это обеспечивает оптимальную производительность и надежность в сценариях отработки отказа.

Необработанные данные транзакций (такие как распределенные трассировки, стеки вызовов и операторы базы данных) распределяются случайным образом по всем дата-центрам, поэтому на каждом дата-центре всегда доступен набор данных. Данные синхронизируются асинхронно между дата-центрами. Это устраняет требование к задержке в 10 мс, которое применяется ко всем кластерам с несколькими дата-центрами.

Синхронизация данных спроектирована таким образом, чтобы свести к минимуму использование полосы пропускания между контроллерами домена и предотвратить потерю данных в случае выхода из строя одного из контроллеров домена. Во время перерывов в работе менее трех часов Dynatrace ВысокаяДоступность автоматически и прозрачно повторно синхронизирует данные между контроллерами домена. При простоях продолжительностью до трех дней команда Dynatrace Контроль Задач инициирует необходимые работы по ремонту и синхронизации. После этого неисправную часть кластера необходимо переустановить.

Маршрутизация данных телеметрии

Сетевые зоны можно использовать для управления потоком данных телеметрии к узлам кластера в различных дата-центрах. Несмотря на то, что Dynatrace ВысокаяДоступность реализует различные оптимизации для уменьшения трафика между дата-центрами, мы рекомендуем для избыточности данных разрешить ActiveGate'ам отправлять данные на оба дата-центра. OneAgent'ы и ActiveGate'ы можно настроить так, чтобы они предпочитали определенные сетевые зоны, сохраняя при этом возможность аварийного переключения на другую часть кластера в случае сбоя дата-центра. Обратите внимание, что для этой цели также можно использовать балансировщики нагрузки. Для активно-пассивных развертываний приложений мы рекомендуем не отключать ActiveGate'ы в пассивных частях развертывания. Это поддерживает работу всех частей инфраструктуры Dynatrace в случае аварийного восстановления и обеспечивает аварийное переключение без повторной настройки или повторного обнаружения.

Технические подробности

Для ВысокойДоступности требуется ОС, поддерживающая cgroups версии 1.0 и systemd версии 219 или более поздней (например, RHEL/CentOS 7+).

Различные ноды будут продолжать взаимодействовать друг с другом через обычные порты, как описано ранее. Суть в том, что порты, которые необходимо открыть между нодами в одном контроллере домена, — это те же порты, которые необходимо открыть внутри кластера, если кластер охватывает два контроллера домена.

Соединения между нодами в разных дата-центрах должны быть зашифрованы. Dynatrace не создает и не устанавливает необходимые сертификаты для обеспечения этого — вам нужно будет сделать это вручную. Поддерживается двусторонняя задержка сети до 100 мс. Потребление полосы пропускания зависит от множества факторов.

Кластер с одним дата-центром (или кластер с несколькими дата-центрами, не зависящий от дата-центра) можно перенести на кластер высокой доступности с двумя дата-центрами. Для такого развертывания требуется лицензия. См. раздел Мониторинг приложений и инфраструктуры (хост-модули).

Dynatrace использует двоичный файл Elasticsearch Enterprise, встроенный в платформу. Для Elasticsearch Enterprise требуется подписка Elasticsearch Platinum.