Kubernetes应用监控实战：Prometheus + Grafana 打造高效告警系统

2025/8/15 20:23:28 378 0 0 0

Kubernetes应用监控实战：Prometheus + Grafana 打造高效告警系统

在云原生时代，Kubernetes已经成为应用部署和管理的事实标准。然而，随着应用规模的扩大和复杂度的增加，如何有效地监控Kubernetes集群中的应用，保证其稳定性和性能，成为了一个重要的挑战。本文将介绍如何利用Prometheus和Grafana，构建一套高效的Kubernetes应用层服务监控系统，重点关注HTTP请求延迟、错误率和QPS等关键业务指标。

1. 为什么选择Prometheus + Grafana？

Prometheus： 强大的时序数据库，擅长抓取和存储指标数据。它基于Pull模式，可以主动从目标应用拉取指标，支持灵活的PromQL查询语言，方便进行数据分析和聚合。
Grafana： 可视化利器，可以将Prometheus存储的指标数据以图表的形式展示出来，方便用户直观地了解应用的运行状态。Grafana还支持告警功能，可以根据预设的规则，在指标异常时发出告警。

两者结合，可以实现对Kubernetes应用的全方位监控和告警，帮助我们及时发现和解决问题。

2. 监控目标：HTTP请求延迟、错误率和QPS

这三个指标是衡量应用性能的关键指标：

HTTP请求延迟： 指从客户端发起请求到服务器返回响应的时间。延迟越高，用户体验越差。
错误率： 指请求失败的比例。错误率越高，说明应用的稳定性越差。
QPS（Queries Per Second）： 指每秒处理的请求数量。QPS越高，说明应用的吞吐能力越强。

我们需要监控这些指标，并在出现异常时及时告警，以便快速定位和解决问题。

3. 准备工作

Kubernetes集群： 确保你已经有一个正在运行的Kubernetes集群。如果没有，可以使用Minikube或者Kind搭建一个本地集群。

Prometheus： 在Kubernetes集群中部署Prometheus。可以使用Helm Chart方便地安装Prometheus：

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm repo update
helm install my-prometheus prometheus-community/prometheus

Grafana： 同样使用Helm Chart部署Grafana：
```
helm repo add grafana https://grafana.github.io/helm-charts
helm repo update
helm install my-grafana grafana/grafana
```
部署完成后，可以通过kubectl get svc命令查看Prometheus和Grafana的Service，并使用kubectl port-forward命令将端口转发到本地，以便访问它们。

4. 应用指标暴露

要让Prometheus能够抓取应用的指标，首先需要让应用暴露这些指标。通常，我们可以使用Prometheus的客户端库来实现。这里以Go语言为例：

package main

import (
    "fmt"
    "log"
    "net/http"
    "time"

    "github.com/prometheus/client_golang/prometheus"
    "github.com/prometheus/client_golang/prometheus/promhttp"
)

var (
    httpRequestsTotal = prometheus.NewCounterVec(
        prometheus.CounterOpts{
            Name: "http_requests_total",
            Help: "Total number of HTTP requests.",
        },
        []string{"path", "method"},
    )
    httpRequestDuration = prometheus.NewHistogramVec(
        prometheus.HistogramOpts{
            Name:    "http_request_duration_seconds",
            Help:    "Duration of HTTP requests.",
            Buckets: []float64{0.1, 0.2, 0.5, 1, 2, 5, 10},
        },
        []string{"path", "method"},
    )
)

func main() {
    prometheus.MustRegister(httpRequestsTotal)
    prometheus.MustRegister(httpRequestDuration)

    http.HandleFunc("/", handleRequest)
    http.Handle("/metrics", promhttp.Handler())

    log.Println("Server listening on :8080")
    log.Fatal(http.ListenAndServe(":8080", nil))
}

func handleRequest(w http.ResponseWriter, r *http.Request) {
    start := time.Now()
    defer func() {
        duration := time.Since(start).Seconds()
        httpRequestDuration.With(prometheus.Labels{"path": r.URL.Path, "method": r.Method}).Observe(duration)
        httpRequestsTotal.With(prometheus.Labels{"path": r.URL.Path, "method": r.Method}).Inc()
    }()

    // 模拟业务逻辑
    time.Sleep(time.Duration(randInt(100, 500)) * time.Millisecond)

    w.WriteHeader(http.StatusOK)
    fmt.Fprintln(w, "Hello, World!")
}

func randInt(min int, max int) int {
    // 省略随机数生成代码，需要引入 "math/rand"
    return min + rand.Intn(max-min)
}

这段代码定义了两个Prometheus指标：

http_requests_total：记录HTTP请求的总数，按路径和方法进行区分。
http_request_duration_seconds：记录HTTP请求的延迟，按路径和方法进行区分，并使用直方图进行统计。

在handleRequest函数中，我们记录了每个请求的开始时间，并在函数返回前计算请求的延迟，并更新相应的指标。/metrics endpoint 用于暴露这些指标给 Prometheus 抓取。

将这个应用部署到Kubernetes集群中，并确保可以通过Service访问它。

5. 配置Prometheus抓取指标

Prometheus提供了多种方式来发现和抓取目标应用。在Kubernetes环境中，最常用的方式是使用ServiceMonitor。ServiceMonitor可以自动发现带有特定标签的Service，并抓取其/metrics endpoint暴露的指标。

首先，为你的应用Service添加以下标签：

apiVersion: v1
kind: Service
metadata:
  name: my-app
  labels:
    app: my-app
    release: my-prometheus # 重要：与ServiceMonitor的selector匹配
spec:
  selector:
    app: my-app
  ports:
  - port: 8080
    targetPort: 8080

然后，创建一个ServiceMonitor资源：

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: my-app-monitor
  labels:
    release: my-prometheus # 重要：与Prometheus的配置匹配
spec:
  selector:
    matchLabels:
      app: my-app
  endpoints:
  - port: 8080
    interval: 30s
    path: /metrics

这个ServiceMonitor会查找带有app: my-app标签的Service，并每30秒抓取其/metrics endpoint的指标。注意release标签需要和Prometheus的配置匹配。如果你使用Helm安装Prometheus，通常会将release设置为Helm Chart的名称。

将ServiceMonitor部署到Kubernetes集群中：

kubectl apply -f service-monitor.yaml

等待一段时间后，可以在Prometheus的Web UI中看到你的应用已经被成功发现，并且开始抓取指标了。

6. 使用Grafana可视化指标

登录Grafana，添加Prometheus作为数据源。然后，创建一个新的Dashboard，添加Graph面板，选择Prometheus数据源，并使用PromQL查询语句来展示指标。

例如，要展示HTTP请求的总数，可以使用以下PromQL查询语句：

sum(rate(http_requests_total{app="my-app"}[5m])) by (path, method)

这个查询语句会计算过去5分钟内，每个路径和方法的HTTP请求速率，并按路径和方法进行分组求和。app="my-app"用于过滤特定应用的指标。

要展示HTTP请求的延迟，可以使用以下PromQL查询语句：

histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket{app="my-app"}[5m])) by (le, path, method))

这个查询语句会计算过去5分钟内，每个路径和方法的HTTP请求延迟的99分位值。99分位值可以帮助我们了解大多数请求的延迟情况，而忽略掉极少数的慢请求。

要展示错误率，可以使用以下PromQL查询语句：

sum(rate(http_requests_total{app="my-app", status=~"5.."}[5m])) by (path, method) / sum(rate(http_requests_total{app="my-app"}[5m])) by (path, method)

这个查询语句会计算过去5分钟内，状态码为5xx的请求的比例，即错误率。

通过这些PromQL查询语句，我们可以将HTTP请求延迟、错误率和QPS等关键业务指标可视化，方便我们直观地了解应用的运行状态。

7. 配置告警规则

Grafana支持告警功能，可以根据预设的规则，在指标异常时发出告警。例如，我们可以配置一个告警规则，当HTTP请求的错误率超过5%时，发出告警。

在Grafana中，创建一个新的Alert rule，选择Prometheus数据源，并使用PromQL查询语句来定义告警条件。例如，可以使用以下PromQL查询语句来判断错误率是否超过5%：

sum(rate(http_requests_total{app="my-app", status=~"5.."}[5m])) by (path, method) / sum(rate(http_requests_total{app="my-app"}[5m])) by (path, method) > 0.05

然后，配置告警的触发条件和通知方式。Grafana支持多种通知方式，例如Email、Slack、Webhook等。选择合适的通知方式，并配置相应的参数。

当告警规则被触发时，Grafana会发出告警通知，我们可以及时采取措施，解决问题。

8. 总结与最佳实践

本文介绍了如何利用Prometheus和Grafana，构建一套高效的Kubernetes应用层服务监控系统，重点关注HTTP请求延迟、错误率和QPS等关键业务指标。通过本文的介绍，相信你已经掌握了如何配置Prometheus抓取Kubernetes应用层的指标，以及如何使用Grafana来可视化这些指标，并设置告警规则。

以下是一些最佳实践：

使用ServiceMonitor自动发现应用： 避免手动配置Prometheus的抓取目标，提高效率。
编写高效的PromQL查询语句： 避免查询语句过于复杂，影响Prometheus的性能。
根据业务需求定制告警规则： 避免误报和漏报，提高告警的准确性。
定期审查和优化监控系统： 随着业务的发展，监控需求也会发生变化，需要定期审查和优化监控系统。

通过不断地学习和实践，你可以构建一套完善的Kubernetes应用监控系统，保障应用的稳定性和性能。

监控老司机 Kubernetes Prometheus Grafana

Kubernetes应用监控实战：Prometheus + Grafana 打造高效告警系统