Мониторинг платформы
Что мониторить
Заголовок раздела «Что мониторить»Со стороны платформы
Заголовок раздела «Со стороны платформы»| Сигнал | Метод | Порог тревоги |
|---|---|---|
| API недоступен | HTTP GET /healthz | != 200 в течение 2 минут |
| Консоль недоступна | HTTP GET / | != 200 |
| PostgreSQL недоступна | TCP на 5432 | нет коннекта |
| Растущий объём БД | Мониторинг размера схемы | вблизи лимита диска |
| 5xx ошибки на API | Логи | рост за окно 5 минут |
Со стороны агента
Заголовок раздела «Со стороны агента»- Логи пода
metrics-collector: должны содержать строкиpods sent,workloads sent,workers sentс ненулевым числом каждые 30 секунд. - Pod в состоянии
Running. CrashLoopBackOff — признак проблемы.
Со стороны ingest
Заголовок раздела «Со стороны ingest»Косвенный индикатор здоровья — объём новых метрик. В консоли на Dashboard должны появляться свежие данные. Если за последние 15 минут нет обновлений от кластера — сигнал.
- API-служба и консоль — JSON-логи на stdout. Собираются стандартным стеком кластера (Loki / ELK / Datadog).
- Агент metrics-collector — JSON-логи на stdout.
В логах ищите:
error/fatal— ошибки.job started/job finished— выполнение плановых задач.ingest— события приёма данных.
Частые сценарии
Заголовок раздела «Частые сценарии»«Данных нет за последний час»
Заголовок раздела ««Данных нет за последний час»»- Проверьте под
metrics-collectorв клиентском кластере:kubectl -n opsman logs deploy/metrics-collector --tail=100. - Нет логов «pods sent» — значит агент не отправляет. Причины: Prometheus недоступен, нет egress до API, неверный токен.
- Проверьте доступность API:
curl -sf https://api-opsman.company.com/healthz.
«5xx на API»
Заголовок раздела ««5xx на API»»- Логи API-службы: ищите stack trace или ошибку.
- Типовые причины: PostgreSQL недоступен, истёк срок TLS на исходящих соединениях к облакам, исчерпан connection pool.
«Алерты не приходят»
Заголовок раздела ««Алерты не приходят»»- Settings → Notifications → Test для каждого бота.
- Логи: поиск по имени бота.
- Для Telegram — проверьте, что бот не выкинут из чата.
Метрики производительности
Заголовок раздела «Метрики производительности»Полезно отслеживать:
- p50/p95 latency главных endpoint’ов (
/api/v2/cost-analysis/dashboard,/api/v2/anomalies). - Размер ключевых таблиц БД и скорость их роста.
- Connection count к PostgreSQL.