Monitoring & Metrics

This suite provides enterprise-grade observability out of the box using the Prometheus, Grafana, and Jaeger stack.

📊 Real-Time Dashboard (Grafana)

The suite includes a comprehensive Grafana Dashboard designed for SREs and Reliability Engineers.

Grafana Dashboard

SLO Tracking: Monitors the Error Budget Burn Rate to detect reliability risks early.
Latency Distribution: Tracks P99 Latency to ensure performance for tail-end users.
System Resilience: Visualizes Circuit Breaker states in real-time.

Import Instructions

Every request is traced using OpenTelemetry, providing visibility into how requests flow through your system.

Inbound: Middleware automatically injects trace_id, span_id, and a user-facing correlation_id.
Outbound: The instrumented HTTP client (src/infrastructure/http_client.py) propagates context to external services (like Groq or OpenAI) via W3C traceparent headers.

Dashboard Access

Prometheus is configured with Golden Signal alerts to proactively notify you of system distress.

Alert Config

Rules are defined in infra/prometheus/alert_rules.yml.