Перейти к содержимому

Мониторинг платформы

Что мониторить

Со стороны платформы

Сигнал	Метод	Порог тревоги
API недоступен	HTTP GET `/healthz`	!= 200 в течение 2 минут
Консоль недоступна	HTTP GET `/`	!= 200
PostgreSQL недоступна	TCP на 5432	нет коннекта
Растущий объём БД	Мониторинг размера схемы	вблизи лимита диска
5xx ошибки на API	Логи	рост за окно 5 минут

Со стороны агента

Логи пода metrics-collector: должны содержать строки pods sent, workloads sent, workers sent с ненулевым числом каждые 30 секунд.
Pod в состоянии Running. CrashLoopBackOff — признак проблемы.

Со стороны ingest

Косвенный индикатор здоровья — объём новых метрик. В консоли на Dashboard должны появляться свежие данные. Если за последние 15 минут нет обновлений от кластера — сигнал.

Логи

API-служба и консоль — JSON-логи на stdout. Собираются стандартным стеком кластера (Loki / ELK / Datadog).
Агент metrics-collector — JSON-логи на stdout.

В логах ищите:

error / fatal — ошибки.
job started / job finished — выполнение плановых задач.
ingest — события приёма данных.

Частые сценарии

«Данных нет за последний час»

Проверьте под metrics-collector в клиентском кластере: kubectl -n opsman logs deploy/metrics-collector --tail=100.
Нет логов «pods sent» — значит агент не отправляет. Причины: Prometheus недоступен, нет egress до API, неверный токен.
Проверьте доступность API: curl -sf https://api-opsman.company.com/healthz.

«5xx на API»

Логи API-службы: ищите stack trace или ошибку.
Типовые причины: PostgreSQL недоступен, истёк срок TLS на исходящих соединениях к облакам, исчерпан connection pool.

«Алерты не приходят»

Settings → Notifications → Test для каждого бота.
Логи: поиск по имени бота.
Для Telegram — проверьте, что бот не выкинут из чата.

Метрики производительности

Полезно отслеживать:

p50/p95 latency главных endpoint’ов (/api/v2/cost-analysis/dashboard, /api/v2/anomalies).
Размер ключевых таблиц БД и скорость их роста.
Connection count к PostgreSQL.