Перейти к содержимому

Мониторинг платформы

СигналМетодПорог тревоги
API недоступенHTTP GET /healthz!= 200 в течение 2 минут
Консоль недоступнаHTTP GET /!= 200
PostgreSQL недоступнаTCP на 5432нет коннекта
Растущий объём БДМониторинг размера схемывблизи лимита диска
5xx ошибки на APIЛогирост за окно 5 минут
  • Логи пода metrics-collector: должны содержать строки pods sent, workloads sent, workers sent с ненулевым числом каждые 30 секунд.
  • Pod в состоянии Running. CrashLoopBackOff — признак проблемы.

Косвенный индикатор здоровья — объём новых метрик. В консоли на Dashboard должны появляться свежие данные. Если за последние 15 минут нет обновлений от кластера — сигнал.

  • API-служба и консоль — JSON-логи на stdout. Собираются стандартным стеком кластера (Loki / ELK / Datadog).
  • Агент metrics-collector — JSON-логи на stdout.

В логах ищите:

  • error / fatal — ошибки.
  • job started / job finished — выполнение плановых задач.
  • ingest — события приёма данных.
  1. Проверьте под metrics-collector в клиентском кластере: kubectl -n opsman logs deploy/metrics-collector --tail=100.
  2. Нет логов «pods sent» — значит агент не отправляет. Причины: Prometheus недоступен, нет egress до API, неверный токен.
  3. Проверьте доступность API: curl -sf https://api-opsman.company.com/healthz.
  1. Логи API-службы: ищите stack trace или ошибку.
  2. Типовые причины: PostgreSQL недоступен, истёк срок TLS на исходящих соединениях к облакам, исчерпан connection pool.
  1. Settings → Notifications → Test для каждого бота.
  2. Логи: поиск по имени бота.
  3. Для Telegram — проверьте, что бот не выкинут из чата.

Полезно отслеживать:

  • p50/p95 latency главных endpoint’ов (/api/v2/cost-analysis/dashboard, /api/v2/anomalies).
  • Размер ключевых таблиц БД и скорость их роста.
  • Connection count к PostgreSQL.