Kubernetes 监控与可观测性

监控在 Kubernetes 里的位置比传统主机时代微妙得多。节点是动态的，Pod 是易失的，一个 Pod 被驱逐后重新调度到另一台节点，原来的指标上下文就丢了。靠 SSH 上去看日志这套流程在这里根本走不通。可观测性不是一个工具，而是把”系统现在怎么样、为什么会变成这样、接下来会怎样”这三类问题，拆给不同工具去回答的体系。本文按 Metrics、Logs、Traces 三条线展开 Prometheus + Grafana + Loki + Jaeger 的协作，以及告警规则怎么从指标映射回真实故障。

一、可观测性三大支柱#

1.1 指标、日志、链路追踪#

graph TB subgraph "可观测性三大支柱" A["Metrics 指标"] --> D["Prometheus"] B["Logs 日志"] --> E["Loki/ELK"] C["Traces 链路"] --> F["Jaeger/Tempo"] end subgraph "统一展示" D --> G["Grafana"] E --> G F --> G end

支柱	工具	用途
Metrics	Prometheus	时间序列指标，资源使用率
Logs	Loki/ELK	日志聚合分析
Traces	Jaeger	请求链路追踪

二、Prometheus 架构#

2.1 组件架构#

Prometheus 的核心是 pull 模型：Server 主动去 Exporter 拉指标，不依赖应用推数据。这套机制在 Kubernetes 里尤其契合，因为 Service Discovery 能自动发现新 Pod 的 metrics 端点，节点一扩容，新节点上的 node_exporter 立刻被抓到，不需要人工登记。

graph TB subgraph "Prometheus 生态" A["Prometheus Server"] --> B["Alertmanager"] A --> C["Pushgateway"] A --> D["Exporters"] D --> E["Node Exporter"] D --> F["Kube-state-metrics"] D --> G["cAdvisor"] end subgraph "服务发现" H["Kubernetes SD"] --> A end

图里几个组件的分工：Prometheus Server 拉取并存储时序数据，Alertmanager 负责告警去重和路由，Pushgateway 接收短任务推上来的指标（batch job 跑完就退出的场景），Exporters 是各类数据源的适配器。Kubernetes 集群里最常用的三个 Exporter 是 Node Exporter（节点硬件）、kube-state-metrics（K8s 对象状态）和 cAdvisor（容器运行时）。

2.2 Kubernetes 部署#

在 Kubernetes 上跑 Prometheus，社区主流路径是 kube-prometheus-stack（基于 Prometheus Operator），把 Prometheus、Alertmanager、Grafana、Exporters 一起以 CRD 方式管理。下面是一个最小化的 Prometheus 自定义资源：

1
# Prometheus Operator
2
apiVersion: monitoring.coreos.com/v1
3
kind: Prometheus
4
metadata:
5
  name: k8s-prometheus
6
  namespace: monitoring
7
spec:
8
  replicas: 2
9
  retention: 15d
10
  serviceAccountName: prometheus
11
  serviceMonitorSelector:
12
    matchLabels:
13
      team: monitoring
14
  resources:
15
    requests:
16
      cpu: 200m
17
      memory: 512Mi
18
    limits:
19
      cpu: 1000m
20
      memory: 2Gi
21
  storage:
22
    volumeClaimTemplate:
23
      spec:
24
        storageClassName: ssd
25
        resources:
26
          requests:
27
            storage: 50Gi

三、核心指标#

3.1 Node 指标#

下面这些指标来自 node_exporter 和 cAdvisor，告警阈值只是常见起点，线上要按节点角色和负载特性微调。

实际指标名	含义	告警阈值参考
`node_cpu_seconds_total`	CPU 各 mode 累计秒数（含 idle）	由 idle 反推使用率 > 80%
`node_memory_MemAvailable_bytes`	可用内存	使用率 > 85%
`node_filesystem_avail_bytes`	文件系统可用空间	使用率 > 90%
`node_network_receive_bytes_total`	网卡累计接收字节	速率突变
`node_network_transmit_bytes_total`	网卡累计发送字节	速率突变

注意指标名后缀：node_exporter 用 _total 表示单调递增计数器，用 _bytes 表示当前值的 Gauge。counter 需要配 rate()/increase() 才有意义，gauge 可以直接读。下面几条 PromQL 正好展示了这两类指标的查询差异。

1
# CPU 使用率：1 减去所有 core 的 idle 占比
2
100 - (sum(rate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100)
3

4
# 内存使用率：用 MemAvailable 反推
5
100 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100
6

7
# 磁盘使用率
8
100 - (node_filesystem_avail_bytes / node_filesystem_size_bytes) * 100

3.2 Pod 指标#

Pod 层指标主要来自 kube-state-metrics（K8s 对象状态）和 cAdvisor（容器运行时），两者职责不同：kube-state-metrics 回答”对象应该是什么样”，cAdvisor 回答”容器实际用了多少”。

实际指标名	来源	用途
`kube_pod_container_resource_requests`	kube-state-metrics	资源请求，调度依据
`kube_pod_container_resource_limits`	kube-state-metrics	资源限制，限流依据
`kube_pod_status_phase`	kube-state-metrics	Pod 当前 phase
`container_cpu_usage_seconds_total`	cAdvisor	CPU 累计使用（counter）
`container_memory_working_set_bytes`	cAdvisor	实际驻留内存（gauge，OOM 判定依据）
`kube_pod_container_status_restarts_total`	kube-state-metrics	重启计数（counter）

1
# Pod CPU 使用率
2
sum(rate(container_cpu_usage_seconds_total[5m])) by (pod, namespace)
3

4
# Pod 内存使用
5
sum(container_memory_working_set_bytes) by (pod, namespace)
6

7
# Pod 重启次数
8
increase(kube_pod_container_status_restarts_total[1h])

3.3 K8s 组件指标#

控制面组件的指标通过 --metrics-bind-address 或 /metrics 暴露，下面几条 histogram 查询用来定位延迟分布而非平均值，P99 才是 SLI 关心的那部分尾部。

1
# API Server 请求延迟（P99）
2
histogram_quantile(0.99,
3
    rate(apiserver_request_duration_seconds_bucket[5m]))
4

5
# Scheduler 调度延迟（P95）
6
histogram_quantile(0.95,
7
    rate(scheduler_e2e_scheduling_duration_seconds_bucket[5m]))
8

9
# etcd 磁盘写入延迟（WAL fsync P99）
10
histogram_quantile(0.99,
11
    rate(etcd_disk_wal_fsync_duration_seconds_bucket[5m]))

Note

本文版本基线为 Kubernetes 1.21/1.22。scheduler_e2e_scheduling_duration_seconds 在 1.23 之后被 scheduler_scheduling_attempt_duration_seconds 替代，升级集群后指标名会变，Dashboard 和告警规则要同步改。

四、Grafana Dashboard#

4.1 常用 Dashboard#

Grafana 的 Dashboard 通常以 JSON 形式导入，在 Kubernetes 里可以直接挂 ConfigMap，让 Dashboard 跟着集群走、随版本管理。

1
# Import dashboard via JSON
2
apiVersion: v1
3
kind: ConfigMap
4
metadata:
5
  name: grafana-dashboard-k8s
6
  namespace: monitoring
7
data:
8
  k8s-cluster.json: |
9
    {
10
      "dashboard": {
11
        "title": "Kubernetes Cluster",
12
        "uid": "k8s-cluster",
13
        "panels": [
14
          {
15
            "title": "CPU 使用率",
16
            "type": "graph",
17
            "targets": [
18
              {
19
                "expr": "sum(rate(container_cpu_usage_seconds_total[5m])) by (namespace)",
20
                "legendFormat": "{{namespace}}"
21
              }
22
            ]
23
          },
24
          {
25
            "title": "内存使用",
26
            "type": "graph",
27
            "targets": [
28
              {
29
                "expr": "sum(container_memory_working_set_bytes) by (namespace)",
30
                "legendFormat": "{{namespace}}"
31
              }
32
            ]
33
          }
34
        ]
35
      }
36
    }

4.2 关键 Panel 配置#

1
# Kubernetes 集群总览
2
apiVersion: v1
3
kind: ConfigMap
4
metadata:
5
  name: cluster-overview
6
  namespace: monitoring
7
data:
8
  dashboard.json: |
9
    {
10
      "panels": [
11
        {
12
          "title": "节点数",
13
          "type": "stat",
14
          "gridPos": {"h": 8, "w": 6},
15
          "targets": [
16
            {"expr": "count(kube_node_info)"}
17
          ]
18
        },
19
        {
20
          "title": "Pod 总数",
21
          "type": "stat",
22
          "gridPos": {"h": 8, "w": 6},
23
          "targets": [
24
            {"expr": "sum(kube_pod_info)"}
25
          ]
26
        },
27
        {
28
          "title": "CPU 分配率",
29
          "type": "gauge",
30
          "gridPos": {"h": 8, "w": 6},
31
          "targets": [
32
            {"expr": "sum(kube_pod_container_resource_requests_cpu_cores) / sum(kube_node_status_allocatable_cpu_cores) * 100"}
33
          ]
34
        },
35
        {
36
          "title": "内存分配率",
37
          "type": "gauge",
38
          "gridPos": {"h": 8, "w": 6},
39
          "targets": [
40
            {"expr": "sum(kube_pod_container_resource_requests_memory_bytes) / sum(kube_node_status_allocatable_memory_bytes) * 100"}
41
          ]
42
        }
43
      ]
44
    }

五、告警规则#

5.1 告警规则定义#

Prometheus Operator 用 PrometheusRule CRD 把告警规则做成 Kubernetes 对象，跟着集群一起版本管理。下面这份示例覆盖了组件存活、节点资源、Pod 重启三类高频告警。

1
apiVersion: monitoring.coreos.com/v1
2
kind: PrometheusRule
3
metadata:
4
  name: k8s-alerts
5
  namespace: monitoring
6
spec:
7
  groups:
8
    - name: kubernetes
9
      rules:
10
        # K8s 组件告警
11
        - alert: K8sApiserverDown
12
          expr: up{job="kube-apiserver"} == 0
13
          for: 5m
14
          labels:
15
            severity: critical
16
          annotations:
17
            summary: "API Server is down"
18
            description: "API Server has been down for more than 5 minutes"
19

20
        - alert: K8sNodeNotReady
21
          expr: kube_node_status_condition{condition="Ready",status="true"} == 0
22
          for: 10m
23
          labels:
24
            severity: warning
25
          annotations:
26
            summary: "Node {{ $labels.node }} is not ready"
27
            description: "Node {{ $labels.node }} has been not ready for 10 minutes"
28

29
        # 资源告警
30
        - alert: HighCPUUsage
31
          expr: sum(rate(container_cpu_usage_seconds_total[5m])) by (node) > 0.8
32
          for: 5m
33
          labels:
34
            severity: warning
35
          annotations:
36
            summary: "High CPU usage on {{ $labels.node }}"
37
            description: "Node {{ $labels.node }} CPU usage is above 80%"
38

39
        - alert: HighMemoryUsage
40
          expr: (1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) > 0.85
41
          for: 5m
42
          labels:
43
            severity: warning
44
          annotations:
45
            summary: "High Memory usage on {{ $labels.node }}"
46

47
        # Pod 告警
48
        - alert: PodRestartingTooMuch
49
          expr: rate(kube_pod_container_status_restarts_total[1h]) > 0.05
50
          for: 5m
51
          labels:
52
            severity: warning
53
          annotations:
54
            summary: "Pod {{ $labels.namespace }}/{{ $labels.pod }} restarting too much"

5.2 Alertmanager 配置#

Alertmanager 负责告警的去重、分组和路由，决定一条告警最终发到哪个接收器。Operator 用 AlertmanagerConfig 把收件人配置也做成 K8s 对象，下面示例把 critical 告警邮件发到 ops 组，同时推到 Slack 的 alerts 频道。

1
apiVersion: monitoring.coreos.com/v1
2
kind: AlertmanagerConfig
3
metadata:
4
  name: team-config
5
  namespace: monitoring
6
spec:
7
  receivers:
8
    - name: "default"
9
      emailConfigs:
10
        - to: "ops-team@example.com"
11
          headers:
12
            subject: "[{{ .Status | toUpper }}] {{ .GroupLabels.alertname }}"
13
    - name: "slack"
14
      slackConfigs:
15
        - channel: "#alerts"
16
          apiUrl: "https://hooks.slack.com/xxx"
17
          title: "[{{ .Status | toUpper }}] {{ .GroupLabels.alertname }}"
18
          text: |
19
            {{ range .Alerts }}
20
            *Alert:* {{ .Annotations.summary }}
21
            *Description:* {{ .Annotations.description }}
22
            {{ end }}

六、自定义指标#

6.1 Prometheus Operator#

内置的 Exporter 只覆盖集群层指标，应用自己的业务指标得自己暴露。Prometheus Operator 用 ServiceMonitor 声明”抓哪些 Service 后面的 Pod、走哪个端口、什么间隔”，避免在每个 Prometheus 实例上手写 scrape 配置。Operator 看到 ServiceMonitor 后自动转成 Prometheus 的 scrape job。

1
# ServiceMonitor
2
apiVersion: monitoring.coreos.com/v1
3
kind: ServiceMonitor
4
metadata:
5
  name: my-app
6
  namespace: monitoring
7
  labels:
8
    team: monitoring
9
spec:
10
  selector:
11
    matchLabels:
12
      app: my-app
13
  endpoints:
14
    - port: metrics
15
      interval: 30s
16
      path: /metrics
17
  namespaceSelector:
18
    matchNames:
19
      - production

6.2 应用暴露指标#

应用侧暴露指标的标准做法是在 HTTP 服务里挂一个 /metrics 端点，按 Prometheus 文本格式输出。下面用 Python 的 prometheus_client 演示三种最常见指标类型：Counter（只增不减的计数器）、Histogram（延迟分布）、Gauge（可增可减的当前值）。

1
# Python 应用暴露 Prometheus 指标
2
from prometheus_client import Counter, Histogram, Gauge
3

4
# 定义指标
5
REQUEST_COUNT = Counter(
6
    'http_requests_total',
7
    'Total HTTP requests',
8
    ['method', 'endpoint', 'status']
9
)
10

11
REQUEST_LATENCY = Histogram(
12
    'http_request_duration_seconds',
13
    'HTTP request latency',
14
    ['method', 'endpoint']
15
)
16

17
ACTIVE_CONNECTIONS = Gauge(
18
    'http_active_connections',
19
    'Active HTTP connections'
20
)
21

22
# 使用指标
23
@app.route('/api/users')
24
def get_users():
25
    REQUEST_COUNT.labels(method='GET', endpoint='/api/users', status='200').inc()
26
    with REQUEST_LATENCY.labels(method='GET', endpoint='/api/users').time():
27
        # 处理请求
28
        pass
29
    return jsonify(users)

七、监控与故障排查联动#

7.1 从监控到排查#

完善的监控体系是故障排查的基础。当告警触发时，快速定位问题的流程如下：

告警触发

查看 Grafana

分析指标趋势

关联日志

定位根因

执行修复

常见告警与排查方向：

告警类型	排查方向	相关工具
HighCPUUsage	应用性能、资源配额	pprof、top
HighMemoryUsage	内存泄漏、缓存策略	jmap、pprof
PodRestarting	应用崩溃、健康检查	kubectl logs
K8sNodeNotReady	节点资源、网络	describe node

7.2 日志与链路追踪#

当指标异常时，需要结合日志和链路追踪进行深度分析：

1
# 查看相关 Pod 日志
2
kubectl logs -n <namespace> <pod-name> --tail=100
3

4
# 查看链路追踪 (Jaeger)
5
# 访问 Jaeger UI，根据 trace ID 查询完整调用链

八、总结#

把全文组件和它们的协作关系收束成一张图，可观测性体系的骨架就清楚了：指标、日志、链路三条采集线汇到统一展示层，告警挂在采集线上做主动通知，故障排查反过来从这里取数据。

graph TB A["监控体系"] --> B["指标收集"] A --> C["日志收集"] A --> D["链路追踪"] B --> E["Prometheus"] C --> F["Loki/ELK"] D --> G["Jaeger"] E --> H["Alertmanager"] H --> I["告警通知"] E --> J["Grafana"] F --> J G --> J A --> K["故障排查"] K --> L["根因分析"] L --> M["快速恢复"]

组件	作用	关键配置
Prometheus	指标收集存储	ServiceMonitor
Grafana	可视化展示	Dashboard
Alertmanager	告警管理	Route/Receiver
Loki	日志聚合	Promtail
Jaeger	链路追踪	Instrument

监控方法论的选择不是越多越好，而是按观察对象匹配。节点这类资源型对象用 USE 方法（Utilization、Saturation、Errors）三件套覆盖；在线服务用 RED 方法（Rate、Errors、Duration）关注吞吐和延迟；SRE 体系的 Four Golden Signals（延迟、流量、错误、饱和度）则把前两者整合成一套通用语言。挑一套真正能驱动告警决策的方法落实，比三套都挂在墙上强。