Grafana Setup - BE Monorepo

Overview

The BE Monorepo uses the Grafana LGTM (Loki, Grafana, Tempo, Mimir/Prometheus) stack for observability, packaged in the grafana/otel-lgtm Docker image.

Docker Compose Configuration

The LGTM stack is defined in docker/docker-compose.yml:

services:
  otel_lgtm:
    image: docker.io/grafana/otel-lgtm:latest
    ports:
      - "3111:3000"  # Grafana UI
      - "4317:4317"  # OTLP gRPC receiver
      - "4318:4318"  # OTLP HTTP receiver
    volumes:
      - ./container/grafana:/data/grafana
      - ./container/prometheus:/data/prometheus
      - ./container/loki:/data/loki
    environment:
      - GF_PATHS_DATA=/data/grafana
    env_file:
      - ./.env

See docker/docker-compose.yml:25

Starting the Stack

1. Start Docker Compose

cd docker
docker compose up -d otel_lgtm

2. Verify Services

Check that all containers are running:

docker compose ps

Expected output:

NAME                IMAGE                          STATUS
otel_lgtm           grafana/otel-lgtm:latest       Up
postgres_db         postgres:17                    Up
redis_cache         redis:latest                   Up

3. Check Logs

docker compose logs -f otel_lgtm

Accessing Services

Grafana UI

URL: http://localhost:3111
Default username: admin
Default password: admin

You’ll be prompted to change the password on first login.

OTLP Endpoints

The application sends telemetry data to these endpoints:

HTTP: http://localhost:4318
gRPC: http://localhost:4317

Configured in your .env:

OTEL_EXPORTER_OTLP_ENDPOINT=http://localhost:4318

Data Sources

The LGTM image comes with pre-configured data sources:

1. Prometheus (Metrics)

Name: Prometheus
Type: Prometheus
URL: http://localhost:9090

Query metrics using PromQL:

rate(http_requests_total_metric[5m])

2. Tempo (Traces)

Name: Tempo
Type: Tempo
URL: http://localhost:3200

Search traces by:

Trace ID
Service name
Operation name
Tags

3. Loki (Logs)

Name: Loki
Type: Loki
URL: http://localhost:3100

Query logs using LogQL:

{service_name="be-monorepo"} |= "error"

4. Pyroscope (Profiles)

Name: Pyroscope
Type: Pyroscope
URL: http://localhost:4040

View continuous profiling data for performance analysis.

Using Grafana

Explore View

The Explore view is ideal for ad-hoc querying:

Click Explore in the left sidebar
Select a data source (Prometheus, Tempo, Loki)
Enter your query
Click Run query

Querying Logs

Basic Log Query

{service_name="be-monorepo"}

Filter by Severity

{service_name="be-monorepo"} | json | severity="ERROR"

Search for Text

{service_name="be-monorepo"} |= "database connection"

Filter by Request ID

{service_name="be-monorepo"} | json | requestId="abc123"

Querying Traces

Search by Service

Go to Explore → Tempo
Select Search tab
Filter by:
- Service Name: be-monorepo
- Span Name: GET /api/users
- Status: error

View Trace Details

Click on a trace to see:

Full request timeline
Span hierarchy
Span attributes
Logs correlated with the trace
Related traces

Querying Metrics

HTTP Request Rate

sum(rate(http_requests_total_metric[5m])) by (route)

Response Time Percentiles

histogram_quantile(0.95, 
  sum(rate(http_request_duration_metric_bucket[5m])) by (le, route)
)

Error Rate

sum(rate(http_requests_total_metric{status_class="5xx"}[5m]))
/ sum(rate(http_requests_total_metric[5m]))
* 100

Creating Dashboards

1. Create New Dashboard

Click + → Create Dashboard
Click Add visualization
Select a data source
Configure your query
Customize visualization (graph, table, gauge, etc.)
Click Save

2. Example HTTP Dashboard

Request Rate Panel

sum(rate(http_requests_total_metric[5m])) by (route)

Visualization: Time series graph

Response Time Panel

histogram_quantile(0.95, 
  sum(rate(http_request_duration_metric_bucket[5m])) by (le)
)

Visualization: Time series graph

Status Code Distribution Panel

sum(http_requests_total_metric) by (status_class)

Visualization: Pie chart

Active Requests Panel

sum(http_server_active_requests)

Visualization: Stat/Gauge

3. Save Dashboard

Click Save dashboard icon (💾)
Enter a name: “HTTP Metrics”
Click Save

Correlating Telemetry Data

One of the most powerful features is correlating logs, traces, and metrics.

Logs → Traces

Query logs in Explore
Find a log entry with a trace ID
Click Tempo link next to the trace ID
View the full trace

Traces → Logs

Open a trace in Tempo
Click on a span
Click Logs for this span
View correlated logs

Metrics → Traces

Find a metric spike in a dashboard
Click on the spike
Select View traces
Drill down into individual requests

Data Persistence

Data is persisted in Docker volumes:

volumes:
  - ./container/grafana:/data/grafana
  - ./container/prometheus:/data/prometheus
  - ./container/loki:/data/loki

See docker/docker-compose.yml:32

Backup Data

cd docker
tar -czf observability-backup.tar.gz container/

Clear Data

docker compose down -v
rm -rf container/grafana container/prometheus container/loki

Alerting

Grafana supports alerting based on metrics and logs.

Creating an Alert

Go to Alerting → Alert rules
Click New alert rule

Define the query:

rate(http_requests_total_metric{status_class="5xx"}[5m]) > 0.1

Set evaluation interval: 1m
Add notification channel (email, Slack, etc.)
Save

Alert Example: High Error Rate

Condition: Error rate > 5% for 5 minutes

sum(rate(http_requests_total_metric{status_class="5xx"}[5m]))
/ sum(rate(http_requests_total_metric[5m]))
> 0.05

Troubleshooting

Application Not Sending Data

Check OTLP endpoint configuration:
```
echo $OTEL_EXPORTER_OTLP_ENDPOINT
```
Verify network connectivity:
```
curl http://localhost:4318/v1/traces
```
Check application logs:
```
npm run dev 2>&1 | grep -i otel
```

No Data in Grafana

Verify data sources are configured
Check time range (top right corner)

Query Prometheus directly:

curl http://localhost:9090/api/v1/query?query=up

Container Issues

Restart the container:
```
docker compose restart otel_lgtm
```
Check container logs:
```
docker compose logs otel_lgtm
```
Verify port availability:
```
netstat -an | grep -E '3111|4317|4318'
```

Performance Tuning

Retention Policies

Configure how long data is retained: Prometheus (metrics):

--storage.tsdb.retention.time=15d

Loki (logs):

limits_config:
  retention_period: 168h  # 7 days

Tempo (traces):

retention:
  traces:
    retention_period: 168h  # 7 days

Resource Limits

Limit container resources:

otel_lgtm:
  # ...
  deploy:
    resources:
      limits:
        cpus: '2'
        memory: 4G

Advanced Features

Service Graph

Visualize service dependencies:

Go to Explore → Tempo
Select Service Graph tab
View service topology

Trace to Metrics

Generate metrics from traces:

Go to Explore → Tempo
Run a trace query
Click Metrics tab
View auto-generated metrics

Exemplars

Link metrics to traces:

Query a metric in Prometheus
Click on a data point
View exemplar traces

Resources

Next Steps

Logging

Learn about structured logging

Tracing

Implement custom traces

Metrics

Create custom metrics

Overview

Back to observability overview

​Overview

​Docker Compose Configuration

​Starting the Stack

​1. Start Docker Compose

​2. Verify Services

​3. Check Logs

​Accessing Services

​Grafana UI

​OTLP Endpoints

​Data Sources

​1. Prometheus (Metrics)

​2. Tempo (Traces)

​3. Loki (Logs)

​4. Pyroscope (Profiles)

​Using Grafana

​Explore View

​Querying Logs

​Basic Log Query

​Filter by Severity

​Search for Text

​Filter by Request ID

​Querying Traces

​Search by Service

​View Trace Details

​Querying Metrics

​HTTP Request Rate

​Response Time Percentiles

​Error Rate

​Creating Dashboards

​1. Create New Dashboard

​2. Example HTTP Dashboard

​Request Rate Panel

​Response Time Panel

​Status Code Distribution Panel

​Active Requests Panel

​3. Save Dashboard

​Correlating Telemetry Data

​Logs → Traces

​Traces → Logs

​Metrics → Traces

​Data Persistence

​Backup Data

​Clear Data

​Alerting

​Creating an Alert

​Alert Example: High Error Rate

​Troubleshooting

​Application Not Sending Data

​No Data in Grafana

​Container Issues

​Performance Tuning

​Retention Policies

​Resource Limits

​Advanced Features

​Service Graph

​Trace to Metrics

​Exemplars

​Resources

​Next Steps

Logging

Tracing

Metrics

Overview

Overview

Docker Compose Configuration

Starting the Stack

1. Start Docker Compose

2. Verify Services

3. Check Logs

Accessing Services

Grafana UI

OTLP Endpoints

Data Sources

1. Prometheus (Metrics)

2. Tempo (Traces)

3. Loki (Logs)

4. Pyroscope (Profiles)

Using Grafana

Explore View

Querying Logs

Basic Log Query

Filter by Severity

Search for Text

Filter by Request ID

Querying Traces

Search by Service

View Trace Details

Querying Metrics

HTTP Request Rate

Response Time Percentiles

Error Rate

Creating Dashboards

1. Create New Dashboard

2. Example HTTP Dashboard

Request Rate Panel

Response Time Panel

Status Code Distribution Panel

Active Requests Panel

3. Save Dashboard

Correlating Telemetry Data

Logs → Traces

Traces → Logs

Metrics → Traces

Data Persistence

Backup Data

Clear Data

Alerting

Creating an Alert

Alert Example: High Error Rate

Troubleshooting

Application Not Sending Data

No Data in Grafana

Container Issues

Performance Tuning

Retention Policies

Resource Limits

Advanced Features

Service Graph

Trace to Metrics

Exemplars

Resources

Next Steps