Kubernetes 工作负载：从 Pod 到 Deployment

当你需要在 Kubernetes 上运行一个应用时，直接创建 Pod 是最简单的方式，但 Pod 不会自动重启、不会自动扩缩、不会滚动更新。生产环境中，你需要更高级的工作负载管理器来确保应用的可靠性。

Kubernetes 提供了多种工作负载类型，每种都有明确的设计意图：Deployment 管理无状态应用，StatefulSet 管理有状态应用，DaemonSet 确保每个节点运行一个实例，Job 处理一次性任务。理解它们的区别和适用场景，是正确使用 Kubernetes 的关键。

一、Pod 生命周期与探针#

Pod 是所有工作负载的基础。理解 Pod 的生命周期和健康检查机制，是掌握上层工作负载的前提。

1.1 Pod 的启动流程#

Init 容器用于 Pod 启动前的初始化工作，等待依赖服务就绪、下载配置文件、注册服务发现。它们按顺序执行，全部成功后主容器才启动。

1.2 三种探针#

探针	目的	失败后果	典型配置
Startup Probe	判断容器是否已启动	重启容器	慢启动应用（`periodSeconds: 10`, `failureThreshold: 30`）
Liveness Probe	判断容器是否健康运行	重启容器	HTTP 健康检查或进程存活检查
Readiness Probe	判断容器是否可接收请求	从 Service Endpoints 移除	检查依赖是否就绪

1
spec:
2
  containers:
3
    - name: my-app
4
      image: my-app:v1
5
      startupProbe:
6
        httpGet:
7
          path: /healthz
8
          port: 8080
9
        periodSeconds: 10
10
        failureThreshold: 30    # 最多等待 300 秒启动
11
      livenessProbe:
12
        httpGet:
13
          path: /healthz
14
          port: 8080
15
        periodSeconds: 15
16
        failureThreshold: 3     # 连续 3 次失败则重启
17
      readinessProbe:
18
        httpGet:
19
          path: /ready
20
          port: 8080
21
        periodSeconds: 5
22
        failureThreshold: 3     # 连续 3 次失败则移出 Endpoints

Tip

Startup Probe 是 Kubernetes 1.18 引入的，专门解决慢启动应用的问题。在此之前，开发者只能通过设置较长的 initialDelaySeconds 来等待容器启动，但这会导致快速启动的应用也要等待相同时间。Startup Probe 启用后，Liveness Probe 只在 Startup Probe 成功后才开始检查，两者互不干扰。

1.3 重启策略#

策略	说明	典型适用工作负载
Always	容器退出后总是重启	Deployment、ReplicaSet、StatefulSet
OnFailure	只有非零退出码才重启	Job（需重试的场景）
Never	从不重启	纯一次性 Job、CronJob 中的单次任务

二、ReplicaSet：副本数量管理#

ReplicaSet 确保指定数量的 Pod 副本始终运行。它是 Deployment 的底层实现，通常不直接使用。

1
apiVersion: apps/v1
2
kind: ReplicaSet
3
metadata:
4
  name: nginx-rs
5
spec:
6
  replicas: 3                # 期望副本数
7
  selector:
8
    matchLabels:
9
      app: nginx              # 必须匹配 Pod 的 Label
10
  template:                   # Pod 模板
11
    metadata:
12
      labels:
13
        app: nginx
14
    spec:
15
      containers:
16
        - name: nginx
17
          image: nginx:1.21

ReplicaSet 控制器的工作逻辑：

计算当前匹配 selector 的 Pod 数量
如果数量 < replicas：按 template 创建新 Pod
如果数量 > replicas：按优先级删除多余 Pod
如果 Pod 失败退出：自动重建

Note

ReplicaSet 的 selector 必须匹配 template.metadata.labels，否则 ReplicaSet 无法管理自己创建的 Pod。Kubernetes API 会验证这一约束。

三、Deployment：滚动更新与回滚#

Deployment 是最常用的工作负载类型。它在 ReplicaSet 之上增加了版本管理和滚动更新能力。

3.1 Deployment 与 ReplicaSet 的关系#

graph TB DEPLOY["Deployment replicas: 3"] RS1["ReplicaSet v1 nginx:1.21 Pod: 0 个"] RS2["ReplicaSet v2 nginx:1.22 Pod: 3 个"] DEPLOY --> RS1 DEPLOY --> RS2 style DEPLOY fill:#e3f2fd,stroke:#1565c0 style RS1 fill:#ffcdd2,stroke:#c62828 style RS2 fill:#c8e6c9,stroke:#2e7d32

每次更新 Deployment 的 Pod 模板（如修改 image 版本），Deployment 会创建一个新的 ReplicaSet，并逐步将流量从旧 ReplicaSet 迁移到新 ReplicaSet。旧 ReplicaSet 不会被删除，它保留着回滚所需的历史版本。

3.2 滚动更新策略#

1
spec:
2
  strategy:
3
    type: RollingUpdate
4
    rollingUpdate:
5
      maxSurge: 1          # 更新时最多多创建 1 个 Pod（可以是百分比）
6
      maxUnavailable: 0    # 更新时最多允许 0 个 Pod 不可用

参数	说明	默认值
`maxSurge`	更新过程中超出期望副本数的最大 Pod 数	25%
`maxUnavailable`	更新过程中不可用 Pod 的最大数量	25%

maxSurge=1, maxUnavailable=0 的更新过程：

3 Pod (v1)

4 Pod (3v1+1v2)

4 Pod (2v1+2v2)

4 Pod (1v1+3v2)

3 Pod (v2)

整个过程始终保持至少 3 个可用 Pod，服务不中断。

3.3 回滚#

1
# 查看 Deployment 的历史版本
2
kubectl rollout history deployment/nginx
3

4
# 回滚到上一个版本
5
kubectl rollout undo deployment/nginx
6

7
# 回滚到指定版本
8
kubectl rollout undo deployment/nginx --to-revision=2
9

10
# 查看回滚状态
11
kubectl rollout status deployment/nginx

Deployment 默认保留 10 个历史 ReplicaSet（通过 revisionHistoryLimit 控制）。回滚时，Deployment 将旧 ReplicaSet 的副本数恢复到期望值，同时缩容当前 ReplicaSet。

四、StatefulSet：有状态应用#

Deployment 适合无状态应用，任何 Pod 都可以处理任何请求，Pod 之间没有区别。但有状态应用（如数据库、消息队列）需要稳定的网络标识、持久化存储和有序的部署/终止。

4.1 StatefulSet 提供的保证#

保证	说明	Deployment 是否提供
稳定网络标识	Pod 名称有序且固定（`statefulset-name-0`, `-1`, `-2`）	否
稳定持久化存储	每个 Pod 绑定独立的 PVC，Pod 重建后重新挂载同一 PVC	否
有序部署	Pod 按 0→1→2 的顺序创建，前一个 Ready 后才创建下一个	否
有序终止	Pod 按 2→1→0 的逆序删除	否

1
apiVersion: apps/v1
2
kind: StatefulSet
3
metadata:
4
  name: mysql
5
spec:
6
  serviceName: mysql         # 必须指定 Headless Service
7
  replicas: 3
8
  selector:
9
    matchLabels:
10
      app: mysql
11
  template:
12
    metadata:
13
      labels:
14
        app: mysql
15
    spec:
16
      containers:
17
        - name: mysql
18
          image: mysql:8.0
19
          volumeMounts:
20
            - name: data
21
              mountPath: /var/lib/mysql
22
  volumeClaimTemplates:      # 每个 Pod 自动创建独立 PVC
23
    - metadata:
24
        name: data
25
      spec:
26
        accessModes: ["ReadWriteOnce"]
27
        resources:
28
          requests:
29
            storage: 10Gi

StatefulSet 必须配合 Headless Service 使用。Headless Service 的 clusterIP 为 None，DNS 查询直接返回每个 Pod 的 IP，而不是 Service VIP：

1
apiVersion: v1
2
kind: Service
3
metadata:
4
  name: mysql
5
spec:
6
  clusterIP: None            # Headless Service
7
  selector:
8
    app: mysql
9
  ports:
10
    - port: 3306

Pod 的 DNS 名称格式为 mysql-0.mysql.default.svc.cluster.local，无论 Pod 重建多少次，这个名称始终指向同一个 PVC 和同一个数据。

4.2 StatefulSet vs Deployment#

场景	选择	原因
Web 服务、API 服务	Deployment	无状态，Pod 之间无区别
MySQL 主从集群	StatefulSet	主从角色不同，需要稳定标识和持久化
Redis Cluster	StatefulSet	每个节点有独立数据，需要稳定网络标识
Kafka 集群	StatefulSet	Broker ID 需要固定，日志目录需要持久化

五、DaemonSet：每个节点一个 Pod#

DaemonSet 确保每个（或特定）Node 上运行一个 Pod 副本。典型用途：

日志收集：每个节点运行 Fluentd/Filebeat
监控代理：每个节点运行 Prometheus Node Exporter
网络插件：每个节点运行 Calico/Cilium CNI agent
存储插件：每个节点运行 CSI node driver

1
apiVersion: apps/v1
2
kind: DaemonSet
3
metadata:
4
  name: node-exporter
5
spec:
6
  selector:
7
    matchLabels:
8
      app: node-exporter
9
  template:
10
    metadata:
11
      labels:
12
        app: node-exporter
13
    spec:
14
      tolerations:             # 容忍 Master 节点的污点
15
        - key: node-role.kubernetes.io/control-plane
16
          effect: NoSchedule
17
      containers:
18
        - name: node-exporter
19
          image: prom/node-exporter
20
          ports:
21
            - containerPort: 9100
22
              hostPort: 9100   # 暴露到宿主机端口

当新 Node 加入集群时，DaemonSet 自动在该 Node 上创建 Pod；当 Node 移除时，Pod 自动被回收。replicas 字段不需要指定，副本数等于匹配的 Node 数量。

六、Job 与 CronJob：批处理任务#

Job 用于运行一次性任务，确保任务成功完成。CronJob 用于定时执行 Job。

6.1 Job#

1
apiVersion: batch/v1
2
kind: Job
3
metadata:
4
  name: data-migration
5
spec:
6
  completions: 5              # 需要成功完成 5 次
7
  parallelism: 2              # 最多 2 个 Pod 并行执行
8
  backoffLimit: 6             # 最多重试 6 次
9
  template:
10
    spec:
11
      restartPolicy: OnFailure  # Job 使用 OnFailure 或 Never
12
      containers:
13
        - name: migrate
14
          image: my-migrate-tool

参数	说明
`completions`	需要成功完成的 Pod 总数
`parallelism`	同时运行的 Pod 最大数量
`backoffLimit`	失败重试上限，超过后 Job 标记为 Failed

6.2 CronJob#

1
apiVersion: batch/v1
2
kind: CronJob
3
metadata:
4
  name: daily-backup
5
spec:
6
  schedule: "0 2 * * *"       # 每天 2:00 执行
7
  concurrencyPolicy: Forbid   # 禁止并发执行
8
  successfulJobsHistoryLimit: 3
9
  failedJobsHistoryLimit: 1
10
  jobTemplate:
11
    spec:
12
      template:
13
        spec:
14
          restartPolicy: OnFailure
15
          containers:
16
            - name: backup
17
              image: my-backup-tool

concurrencyPolicy	说明
Allow	允许并发执行（默认）
Forbid	禁止并发，上次未完成则跳过本次
Replace	替换上次未完成的 Job

七、HPA：自动扩缩容#

Horizontal Pod Autoscaler（HPA）根据指标自动调整 Deployment/StatefulSet 的副本数。autoscaling/v2 API 从 v1.23 起正式 GA，支持资源指标和自定义指标。

1
apiVersion: autoscaling/v2
2
kind: HorizontalPodAutoscaler
3
metadata:
4
  name: nginx-hpa
5
spec:
6
  scaleTargetRef:
7
    apiVersion: apps/v1
8
    kind: Deployment
9
    name: nginx
10
  minReplicas: 2
11
  maxReplicas: 10
12
  metrics:
13
    - type: Resource
14
      resource:
15
        name: cpu
16
        target:
17
          type: Utilization
18
          averageUtilization: 50    # CPU 使用率超过 50% 时扩容

HPA 的扩缩逻辑：

当前 CPU 使用率 > 50%：增加副本数
当前 CPU 使用率 < 50%：减少副本数
扩容和缩容有独立的冷却期控制：扩容默认可立即执行（--horizontal-pod-autoscaler-upscale-delay 在 autoscaling/v2beta2 后已由算法内部平滑处理），缩容默认冷却 5 分钟（--horizontal-pod-autoscaler-downscale-stabilization），防止副本数频繁抖动

1
# 查看 HPA 状态
2
kubectl get hpa
3

4
# 输出示例
5
NAME        REFERENCE          TARGETS   MINPODS   MAXPODS   REPLICAS   AGE
6
nginx-hpa   Deployment/nginx   45%/50%   2         10        3          5m