容器在 Kubernetes 中

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

3761 字

11 分钟

容器在 Kubernetes 中

2026-06-16

容器运行时

Kubernetes

/

容器

/

底层原理

Kubernetes 不直接运行容器。它通过 kubelet 把容器编排的意图翻译成 CRI gRPC 调用，交给 containerd 或 CRI-O 执行。一个 Pod 从 API Server 的 YAML 到真正跑起来的进程，中间要经历 Sandbox 创建、Namespace 共享、Init Container 串行执行、主容器启动、Sidecar 注入——每一步都对应着容器运行时的具体操作。

本章站在 Kubernetes 的视角，看容器运行时如何被编排系统驱动。理解了 CRI 接口和 Pod 创建流程，你就能从 kubelet 日志和 crictl 输出中定位问题，也能理解为什么 Pod 里的容器共享 Network Namespace、pause 容器为什么存在、Init Container 和普通容器到底有什么区别。

Kubernetes 与容器运行时的关系经历了一次重大解耦。Kubernetes 1.5 之前，kubelet 硬编码调用 Docker API——Docker 是唯一支持的运行时。2016 年，Kubernetes 1.5 引入 CRI（Container Runtime Interface），将容器运行时操作抽象为一组 gRPC 接口，kubelet 不再直接调用任何运行时的 API。2018 年，dockershim 被标记为弃用；2020 年，Kubernetes 1.24 正式移除 dockershim——从此 Docker 不再是 Kubernetes 的”默认运行时”，containerd 取而代之。这场解耦的核心思想是：Kubernetes 不关心你用什么容器运行时，只关心你遵循 CRI 接口。理解这段历史，有助于理解为什么 Kubernetes 的容器运行时配置如此灵活——CRI 让 containerd、CRI-O、Kata Containers、gVisor 都可以成为 Kubernetes 的运行时。

前置知识#

Ch07 containerd 架构：containerd 实现了 CRI 插件，是 Kubernetes 的默认运行时
Ch08 containerd-shim：Pod Sandbox 通过 shim 管理，pause 容器是第一个 shim 创建的进程
Ch09 容器完整流程：Kubernetes 中的容器创建流程更复杂，理解单容器流程是前提
Kubernetes 基础：Pod、Deployment、Service 等核心概念

Note

如果你还不熟悉 Kubernetes 基础概念，推荐先阅读 Kubernetes 官方文档的 Pod 概念章节。

一、Kubernetes 与容器运行时：kubelet 通过 CRI 与 containerd/runc 交互#

1.1 Kubernetes 的容器运行时抽象#

Kubernetes 从 1.5 版本引入 CRI（Container Runtime Interface），把容器运行时操作抽象为一组 gRPC 接口。kubelet 不再直接调用 Docker 或 containerd 的 API，而是通过 CRI 与运行时通信。这种解耦让 Kubernetes 可以支持多种容器运行时——containerd、CRI-O、Mirantis Container Runtime，甚至 Kata Containers 和 gVisor。

graph TB subgraph K8s控制面["Kubernetes 控制面"] API["API Server"] SCHED["Scheduler"] CTRLMGR["Controller Manager"] end subgraph 节点["Worker 节点"] KUBELET["kubelet"] CRIRUNTIME["CRI 运行时<br/>(containerd / CRI-O)"] SHIM["shim"] RUNC["runc / runsc / kata"] PAUSE["pause 容器"] CONTAINER["业务容器"] end API --> KUBELET SCHED --> API CTRLMGR --> API KUBELET -->|"CRI gRPC"| CRIRUNTIME CRIRUNTIME --> SHIM SHIM --> RUNC RUNC --> PAUSE RUNC --> CONTAINER PAUSE -.->|"共享 Namespace"| CONTAINER style K8s控制面 fill:#e3f2fd,stroke:#1565c0 style 节点 fill:#e8f5e9,stroke:#2e7d32 style CRIRUNTIME fill:#fff3e0,stroke:#e65100

1.2 从 Docker 到 CRI 的演进#

Kubernetes 早期直接调用 Docker Engine 的 API。但 Docker 的 API 设计面向单机使用，与 Kubernetes 的 Pod 语义存在根本性冲突——Docker 没有Pod 的概念，一个 Pod 中的多个容器需要共享 Network Namespace，而 Docker 的容器模型是每个容器独立的 Namespace。

阶段	时间	运行时方案	问题
Docker 直接集成	K8s 1.0 - 1.5	kubelet → dockerd	Docker API 与 Pod 语义不匹配，每次 Docker 改 API 都要改 kubelet
CRI + dockershim	K8s 1.5 - 1.24	kubelet → dockershim → dockerd	多一层转换，性能损耗，维护负担
CRI + containerd	K8s 1.24+	kubelet → containerd	原生 CRI 支持，性能最优，当前主流
CRI + CRI-O	K8s 1.24+	kubelet → CRI-O	专为 K8s 设计的轻量运行时，Red Hat 主推

Note

Kubernetes 1.24 正式移除了 dockershim（dockershim Removal）。如果你的集群还在用 Docker Engine 作为运行时，需要迁移到 containerd 或 CRI-O。Docker 构建的镜像仍然可以在任何 CRI 运行时上运行——因为镜像格式遵循 OCI 标准，与运行时无关。

1.3 kubelet 与容器运行时的交互方式#

kubelet 通过 Unix Socket 与 CRI 运行时通信。默认的 socket 路径：

1
/var/run/containerd/containerd.sock
2

3
/var/run/crio/crio.sock
4

5
kubectl get nodes -o wide
6

7
crictl --runtime-endpoint unix:///var/run/containerd/containerd.sock info

kubelet 在启动时通过 --container-runtime-endpoint 参数指定 CRI socket。每创建一个 Pod，kubelet 就通过这个 socket 发起一系列 CRI 调用。

二、CRI 接口详解：RuntimeService + ImageService，gRPC 协议#

2.1 CRI 的两个服务#

CRI 协议定义在 Kubernetes 仓库的 pkg/kubelet/cri/api 目录中，包含两个 gRPC 服务：

1
// RuntimeService - 容器和 Pod 的生命周期管理
2
service RuntimeService {
3
    // Pod 管理
4
    rpc RunPodSandbox(RunPodSandboxRequest) returns (RunPodSandboxResponse);
5
    rpc StopPodSandbox(StopPodSandboxRequest) returns (StopPodSandboxResponse);
6
    rpc RemovePodSandbox(RemovePodSandboxRequest) returns (RemovePodSandboxResponse);
7
    rpc PodSandboxStatus(PodSandboxStatusRequest) returns (PodSandboxStatusResponse);
8
    rpc ListPodSandbox(ListPodSandboxRequest) returns (ListPodSandboxResponse);
9

10
    // 容器管理
11
    rpc CreateContainer(CreateContainerRequest) returns (CreateContainerResponse);
12
    rpc StartContainer(StartContainerRequest) returns (StartContainerResponse);
13
    rpc StopContainer(StopContainerRequest) returns (StopContainerResponse);
14
    rpc RemoveContainer(RemoveContainerRequest) returns (RemoveContainerResponse);
15
    rpc ContainerStatus(ContainerStatusRequest) returns (ContainerStatusResponse);
16
    rpc ListContainers(ListContainersRequest) returns (ListContainersResponse);
17
    // 其他
18
    rpc ExecSync(ExecSyncRequest) returns (ExecSyncResponse);
19
    rpc Exec(ExecRequest) returns (ExecResponse);
20
    rpc Attach(AttachRequest) returns (AttachResponse);
21
    rpc PortForward(PortForwardRequest) returns (PortForwardResponse);
22
}
23
// ImageService - 镜像管理
24
service ImageService {
25
    rpc ListImages(ListImagesRequest) returns (ListImagesResponse);
26
    rpc ImageStatus(ImageStatusRequest) returns (ImageStatusResponse);
27
    rpc PullImage(PullImageRequest) returns (PullImageResponse);
28
    rpc RemoveImage(RemoveImageRequest) returns (RemoveImageResponse);
29
    rpc ImageFsInfo(ImageFsInfoRequest) returns (ImageFsInfoResponse);
30
}

2.2 CRI 关键接口说明#

接口	作用	对应的底层操作
`RunPodSandbox`	创建 Pod Sandbox（pause 容器）	创建 Network Namespace、挂载 /etc/resolv.conf、启动 pause 进程
`CreateContainer`	在 Sandbox 中创建容器	准备 rootfs、生成 OCI Bundle、runc create
`StartContainer`	启动已创建的容器	runc start
`StopContainer`	停止容器	发送 SIGTERM，超时后 SIGKILL
`RemoveContainer`	删除容器	runc delete、清理 rootfs
`PullImage`	拉取镜像	从 Registry 下载镜像层、解压到 Snapshot
`ExecSync`	在容器中执行命令并等待返回	runc exec

2.3 CRI 与 containerd 的内部映射#

containerd 内部通过 CRI 插件（pkg/cri）实现 CRI 接口。每个 CRI 调用在 containerd 内部的映射关系：

1
// containerd CRI 插件的核心映射（简化）
2
// RunPodSandbox → 创建 pause 容器
3
func (c *criService) RunPodSandbox(ctx context.Context, r *runtime.RunPodSandboxRequest) (*runtime.RunPodSandboxResponse, error) {
4
    // 1. 拉取 pause 镜像
5
    image, err := c.ensureImageExists(ctx, sandboxImage, config)
6

7
    // 2. 创建 containerd container（pause）
8
    container, err := c.containerService.Create(ctx, containerdContainer)
9

10
    // 3. 创建 task（启动容器进程）
11
    task, err := container.NewTask(ctx, cio.NewCreator())
12

13
    // 4. 设置网络（CNI）
14
    if config.NetworkConfig.PodCidr != "" {
15
        result, err := c.netPlugin.Setup(ctx, sandboxID, netnsPath)
16
    }
17

18
    // 5. 启动 task
19
    err = task.Start(ctx)
20

21
    return &runtime.RunPodSandboxResponse{PodSandboxId: sandboxID}, nil
22
}

这段代码展示了 containerd 如何把一个 RunPodSandbox CRI 调用翻译成内部操作：拉镜像 → 创建容器 → 创建 task → 配置网络 → 启动。关于 containerd 的完整架构，参见 Ch07 containerd 架构。

三、Pod 创建流程：Sandbox → Init Container → 主容器 → Sidecar#

3.1 Pod 创建的完整时序#

当一个 Pod 被调度到节点上，kubelet 通过以下步骤创建它：

sequenceDiagram participant API as API Server participant KL as kubelet participant CRI as CRI Runtime participant CNI as CNI Plugin participant RUNC as runc API->>KL: 1. Pod 分配到节点 KL->>KL: 2. 创建 PodDirectory (/var/lib/kubelet/pods/<uid>) Note over KL,RUNC: 阶段一：创建 Sandbox KL->>CRI: 3. RunPodSandbox CRI->>CRI: 4. 拉取 pause 镜像 CRI->>RUNC: 5. 创建 pause 容器（新 Namespace） RUNC-->>CRI: pause 进程 PID CRI->>CNI: 6. Setup Pod 网络 CNI-->>CRI: Pod IP CRI-->>KL: SandboxID + Pod IP Note over KL,RUNC: 阶段二：创建 Init Container KL->>CRI: 7. PullImage (init container) KL->>CRI: 8. CreateContainer (init, 共享 Sandbox NS) CRI->>RUNC: 9. runc create KL->>CRI: 10. StartContainer CRI->>RUNC: 11. runc start KL->>KL: 12. 等待 Init Container 退出（exit code 0） Note over KL,RUNC: 阶段三：创建主容器和 Sidecar loop 每个容器（按 spec.containers 顺序） KL->>CRI: 13. PullImage KL->>CRI: 14. CreateContainer (共享 Sandbox NS) CRI->>RUNC: 15. runc create KL->>CRI: 16. StartContainer CRI->>RUNC: 17. runc start end KL->>API: 18. Pod Running

3.2 Pod 创建的关键步骤#

步骤	操作	失败处理
创建 Sandbox	`RunPodSandbox`，启动 pause 容器	重试，记录事件
配置网络	CNI 插件设置 veth pair、路由、iptables	清理 Sandbox，重试
运行 Init Container	按顺序逐个执行，必须成功退出	Pod 失败，根据 restartPolicy 决定是否重启
创建主容器	在 Sandbox 的 Namespace 中创建	重试
启动主容器	并行启动所有主容器（无依赖顺序）	记录事件，可能触发重启

3.3 Pod 创建失败时的行为#

1
spec:
2
  restartPolicy: Always    # 总是重启（默认）

Pod 创建过程中任何阶段失败，kubelet 都会记录事件并按照 restartPolicy 决定是否重试。Init Container 的失败尤其需要注意——它会导致整个 Pod 重启，所有 Init Container 从头执行。

四、Pod Sandbox：基础设施容器（pause），共享 Namespace#

4.1 pause 容器的作用#

每个 Pod 启动时，CRI 运行时首先创建一个 pause 容器。pause 容器的镜像极小（约 300KB），它的唯一功能是持有 Namespace——创建 Network Namespace、IPC Namespace，然后无限休眠。

1
// pause 容器的完整源码（kubernetes/build/pause/linux/pause.c）
2
#include <signal.h>
3
#include <stdio.h>
4
#include <stdlib.h>
5
#include <string.h>
6
#include <sys/types.h>
7
#include <unistd.h>
8

9
#define STRINGIFY(x) #x
10
#define VERSION_STRING(x) STRINGIFY(x)
11

12
#ifndef VERSION
13
#define VERSION HEAD
14
#endif
15

16
static void sigdown(int signo) {
17
  psignal(signo, "Shutting down, got signal");
18
  exit(0);
19
}
20

21
static void sigreap(int signo) {
22
  while (waitpid(-1, NULL, WNOHANG) > 0)
23
    ;
24
}
25

26
int main(int argc, char **argv) {
27
  int i;
28
  for (i = 1; i < argc; ++i) {
29
    if (!strcmp(argv[i], "-v")) {
30
      printf("pause " VERSION_STRING(VERSION) "\n");
31
      return 0;
32
    }
33
  }
34

35
  if (getpid() != 1)
36
    /* Not in a container, just sleep forever */
37
    while (1) sleep(10000);
38

39
  if (sigaction(SIGINT, &(struct sigaction){.sa_handler = sigdown}, NULL) < 0)
40
    return 1;
41
  if (sigaction(SIGTERM, &(struct sigaction){.sa_handler = sigdown}, NULL) < 0)
42
    return 1;
43
  if (sigaction(SIGCHLD, &(struct sigaction){.sa_handler = sigreap, .sa_flags = SA_NOCLDSTOP},
44
                NULL) < 0)
45
    return 1;
46

47
  for (;;)
48
    pause();
49
  fprintf(stderr, "Error: infinite loop terminated\n");
50
  return 42;
51
}

pause 容器做三件事：

持有 Namespace：作为 Pod 中所有容器的 Namespace 锚点
回收僵尸进程：作为 PID 1，调用 waitpid 回收子进程
信号处理：响应 SIGINT/SIGTERM 优雅退出

4.2 Namespace 共享机制#

Pod 中所有容器共享 pause 容器的 Namespace。这是通过在创建容器时指定 PodSandboxId 实现的——CRI 运行时把 Sandbox 的 Namespace 路径传入 runc create 的配置中：

1
{
2
  "linux": {
3
    "namespaces": [
4
      {"type": "pid"},
5
      {"type": "ipc", "path": "/proc/3456/ns/ipc"},
6
      {"type": "uts", "path": "/proc/3456/ns/uts"},
7
      {"type": "mount"},
8
      {"type": "network", "path": "/proc/3456/ns/net"}
9
    ]
10
  }
11
}

这里 3456 是 pause 容器的 PID。通过 setns() 系统调用，新容器加入 pause 已有的 IPC、UTS、Network Namespace，但拥有独立的 PID 和 Mount Namespace。

Namespace	Pod 内共享	说明
Network	共享	所有容器共享同一个 IP 和端口空间
UTS	共享	所有容器共享同一个 hostname
IPC	共享	所有容器可以通过 System V IPC 通信
PID	独立	每个容器有独立的进程树（可配置共享）
Mount	独立	每个容器有独立的文件系统视图
User	独立	每个容器有独立的用户映射
Cgroup	独立	每个容器有独立的 Cgroup（K8s 1.25+ 可配置共享）

4.3 为什么需要 pause 容器#

假设 Pod 中有容器 A 和容器 B。如果没有 pause 容器，容器 A 崩溃重启后，容器 B 的 Network Namespace 会怎样？

没有 pause：容器 A 持有 Network Namespace，A 崩溃后 Namespace 被销毁，容器 B 失去网络
有 pause：pause 持有 Network Namespace，A 崩溃重启后加入 pause 的 Namespace，B 不受影响

1
crictl ps --name POD
2

3
ls -la /proc/$(crictl inspect abc123 | jq '.info.pid')/ns/
4

5
crictl inspect def456 | jq '.info.pid'
6
# 5678
7
ls -la /proc/5678/ns/net

pause 容器是 Pod 稳定性的基石。只要 pause 不退出，Pod 的 Network/IPC/UTS Namespace 就一直存在，业务容器的崩溃重启不会影响其他容器。

五、多容器模式：Sidecar/Ambassador/Adapter 模式#

5.1 Sidecar 模式#

Sidecar 是 Kubernetes 中最常见的多容器模式。一个辅助容器与主容器共存于同一个 Pod，共享 Network Namespace，通过 localhost 通信。

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: app-with-log-collector
5
spec:
6
  containers:
7
    - name: app
8
      image: nginx:1.25
9
      volumeMounts:
10
        - name: logs
11
          mountPath: /var/log/nginx
12
    - name: log-collector
13
      image: fluent/fluentd:v1.16
14
      volumeMounts:
15
        - name: logs
16
          mountPath: /var/log/nginx
17
          readOnly: true
18
  volumes:
19
    - name: logs
20
      emptyDir: {}

Sidecar 的典型应用场景：

场景	主容器	Sidecar	通信方式
日志收集	业务应用	Fluentd/Filebeat	共享 Volume
代理/服务网格	业务应用	Envoy/Istio proxy	localhost 端口
监控采集	业务应用	Prometheus exporter	HTTP localhost
配置热更新	业务应用	ConfigMap reloader	信号 + 共享 Volume

5.2 Ambassador 模式#

Ambassador 容器作为 Pod 与外部服务的代理。主容器通过 localhost 访问 Ambassador，Ambassador 负责与外部服务的连接管理、认证、重试。

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: app-with-db-proxy
5
spec:
6
  containers:
7
    - name: app
8
      image: myapp:latest
9
      env:
10
        - name: DB_HOST
11
          value: "127.0.0.1"  # 连接 Ambassador
12
        - name: DB_PORT
13
          value: "3306"
14
    - name: db-proxy
15
      image: prom/mysqld-exporter:latest

5.3 Adapter 模式#

Adapter 容器对主容器的输出进行标准化转换。主容器输出自有格式的监控数据，Adapter 将其转换为 Prometheus 可以抓取的格式。

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: app-with-metrics-adapter
5
spec:
6
  containers:
7
    - name: app
8
      image: myapp:latest
9
    - name: metrics-adapter
10
      image: metrics-adapter:latest

5.4 三种模式对比#

模式	辅助容器角色	与主容器关系	典型场景
Sidecar	增强/扩展主容器功能	主容器感知 Sidecar 存在	日志收集、服务网格、监控
Ambassador	代理外部服务连接	主容器不感知外部服务细节	数据库代理、外部 API 代理
Adapter	标准化主容器输出	主容器不感知输出格式要求	监控格式转换、日志格式统一

三种模式的本质都是利用 Pod 内共享 Network Namespace 的特性——容器之间通过 localhost 通信，零网络开销，无需服务发现。

六、Init Container：初始化顺序、与普通容器的区别#

6.1 Init Container 的执行语义#

Init Container 在 Pod 的主容器启动之前按顺序执行，每个 Init Container 必须成功退出（exit code 0）后，下一个才会启动。所有 Init Container 执行完毕，主容器才开始并行启动。

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: app-with-init
5
spec:
6
  initContainers:
7
    - name: wait-for-db
8
      image: busybox:1.36
9
      command: ['sh', '-c', 'until nc -z db-service 5432; do echo waiting; sleep 2; done']
10
    - name: db-migrate
11
      image: myapp:latest
12
      command: ['sh', '-c', 'python manage.py migrate']
13
    - name: generate-config
14
      image: busybox:1.36
15
      command: ['sh', '-c', 'echo "config from $(hostname)" > /config/app.conf']
16
      volumeMounts:
17
        - name: config
18
          mountPath: /config
19
  containers:
20
    - name: app
21
      image: myapp:latest
22
      command: ['python', 'manage.py', 'runserver']
23
      volumeMounts:
24
        - name: config
25
          mountPath: /etc/app/config
26
  volumes:
27
    - name: config
28
      emptyDir: {}

6.2 Init Container 与普通容器的区别#

特性	Init Container	普通 Container
执行方式	串行，按顺序逐个执行	并行，同时启动
退出要求	必须成功退出（exit 0）	可以长期运行
重启行为	失败后整个 Pod 重启，所有 Init 重新执行	根据重启策略单独重启
资源请求	取所有 Init Container 的最大值	各容器独立计算
探针支持	不支持 readiness/liveness 探针	支持
生命周期	Pod 启动阶段一次性执行	Pod 运行期间持续运行
Namespace	共享 Sandbox Namespace	共享 Sandbox Namespace

6.3 Init Container 的资源计算#

Init Container 的资源请求和限制计算方式与普通容器不同：

1
# init-1: cpu=500m, memory=256Mi
2
# init-2: cpu=1000m, memory=128Mi
3
# app:    cpu=500m, memory=512Mi
4
# sidecar: cpu=200m, memory=128Mi

这种计算方式的原因是 Init Container 串行执行，同一时刻只有一个在运行，所以取最大值；而普通容器并行运行，所以求和。调度器使用 Pod 的有效请求来选择节点。

6.4 Sidecar Container（Kubernetes 1.28+）#

Kubernetes 1.28 引入了原生 Sidecar Container，它是一种特殊的 Init Container——启动顺序与 Init Container 相同（串行），但不会因为退出而阻塞后续容器：

1
spec:
2
  initContainers:
3
    - name: log-collector
4
      image: fluent/fluentd:v1.16
5
      restartPolicy: Always    # 关键：标记为 Sidecar
6
      volumeMounts:
7
        - name: logs
8
          mountPath: /var/log
9
  containers:
10
    - name: app
11
      image: myapp:latest
12
      volumeMounts:
13
        - name: logs
14
          mountPath: /var/log
15
  volumes:
16
    - name: logs
17
      emptyDir: {}

restartPolicy: Always 的 Init Container 就是 Sidecar Container。它会在所有普通容器启动前启动，并在整个 Pod 生命周期内持续运行。如果 Sidecar Container 崩溃，它会被自动重启。

七、容器生命周期：PostStart/PreStop 钩子、终止流程#

7.1 容器生命周期钩子#

Kubernetes 为容器定义了两个生命周期钩子：

1
spec:
2
  containers:
3
    - name: app
4
      image: nginx:1.25
5
      lifecycle:
6
        postStart:
7
          exec:
8
            command: ["/bin/sh", "-c", "echo 'Container started' > /tmp/started"]
9
        preStop:
10
          exec:
11
            command: ["/bin/sh", "-c", "nginx -s quit; while pgrep nginx; do sleep 1; done"]

钩子	触发时机	用途	注意事项
`postStart`	容器创建后立即执行	初始化配置、注册服务	与容器 ENTRYPOINT 并行执行，不能保证在 ENTRYPOINT 之前完成
`preStop`	容器终止前执行	优雅关闭、注销服务	同步阻塞，执行完毕后才发送 SIGTERM

7.2 容器终止流程#

flowchart TD A["删除 Pod / 缩容"] --> B["kubelet 调用 preStop 钩子"] B --> C["preStop 执行完毕<br/>(最长 terminationGracePeriodSeconds)"] C --> D["kubelet 调用 CRI StopContainer"] D --> E["CRI 运行时发送 SIGTERM"] E --> F{"容器是否在宽限期内退出?"} F -->|"是"| G["容器退出"] F -->|"否"| H["发送 SIGKILL"] H --> I["容器强制退出"] G --> J["kubelet 调用 CRI RemoveContainer"] I --> J J --> K["清理资源"] style A fill:#ffcdd2,stroke:#c62828 style E fill:#fff3e0,stroke:#e65100 style H fill:#ffcdd2,stroke:#c62828 style G fill:#c8e6c9,stroke:#2e7d32 style K fill:#c8e6c9,stroke:#2e7d32

容器终止的完整时序：

API Server 收到删除 Pod 请求
kubelet 触发 preStop 钩子（同步阻塞）
preStop 执行完毕后，kubelet 调用 StopContainer
CRI 运行时向容器进程发送 SIGTERM
等待 terminationGracePeriodSeconds（默认 30 秒）
超时后发送 SIGKILL 强制终止
容器退出后，kubelet 调用 RemoveContainer 清理

1
kubectl describe pod my-app
2
# Events:

7.3 容器状态机#

stateDiagram-v2 [*] --> Waiting: CreateContainer Waiting --> Running: StartContainer Waiting --> Terminated: 创建失败 Running --> Terminated: 退出 / StopContainer Terminated --> Waiting: 重启策略触发重启 Terminated --> [*]: restartPolicy=Never 且退出 state Waiting { [*] --> PullingImage: 拉取镜像 PullingImage --> ImagePulled: 拉取完成 ImagePulled --> CrashLoopBackOff: 上次退出码非0 } state Running { [*] --> Healthy: 健康检查通过 Healthy --> Unhealthy: 健康检查失败 Unhealthy --> Healthy: 健康检查恢复 } state Terminated { [*] --> ExitCode0: 正常退出 [*] --> ExitCodeNon0: 异常退出 [*] --> OOMKilled: 内存不足被杀 [*] --> Error: 执行错误 }

容器在 Kubernetes 中有三种状态：Waiting（等待启动）、Running（运行中）、Terminated（已终止）。每种状态都有原因和消息字段，可以通过 kubectl describe pod 查看。

八、动手实践#

8.1 用 crictl 观察 Pod 创建过程#

1
kubectl apply -f - <<EOF
2
apiVersion: v1
3
kind: Pod
4
metadata:
5
  name: demo-pod
6
spec:
7
  initContainers:
8
    - name: init-config
9
      image: busybox:1.36
10
      command: ['sh', '-c', 'echo "initialized" > /shared/config']
11
      volumeMounts:
12
        - name: shared
13
          mountPath: /shared
14
  containers:
15
    - name: app
16
      image: nginx:1.25
17
      volumeMounts:
18
        - name: shared
19
          mountPath: /usr/share/nginx/html
20
          readOnly: true
21
    - name: sidecar
22
      image: busybox:1.36
23
      command: ['sh', '-c', 'while true; do echo sidecar; sleep 10; done']
24
  volumes:
25
    - name: shared
26
      emptyDir: {}
27
EOF
28

29
crictl pods --name demo-pod
30

31
crictl ps -a --pod abc123
32

33
PAUSE_PID=$(crictl inspect def456 | jq '.info.pid')
34
ls -la /proc/$PAUSE_PID/ns/
35

36
APP_PID=$(crictl inspect jkl012 | jq '.info.pid')
37
readlink /proc/$APP_PID/ns/net
38

39
readlink /proc/$APP_PID/ns/mnt

8.2 观察 Init Container 的执行顺序#

1
kubectl apply -f - <<EOF
2
apiVersion: v1
3
kind: Pod
4
metadata:
5
  name: init-order-demo
6
spec:
7
  initContainers:
8
    - name: step-1
9
      image: busybox:1.36
10
      command: ['sh', '-c', 'echo "Step 1: $(date)" >> /log/init.log; sleep 3']
11
      volumeMounts:
12
        - name: log
13
          mountPath: /log
14
    - name: step-2
15
      image: busybox:1.36
16
      command: ['sh', '-c', 'echo "Step 2: $(date)" >> /log/init.log; sleep 3']
17
      volumeMounts:
18
        - name: log
19
          mountPath: /log
20
    - name: step-3
21
      image: busybox:1.36
22
      command: ['sh', '-c', 'echo "Step 3: $(date)" >> /log/init.log; sleep 3']
23
      volumeMounts:
24
        - name: log
25
          mountPath: /log
26
  containers:
27
    - name: app
28
      image: busybox:1.36
29
      command: ['sh', '-c', 'cat /log/init.log; sleep 3600']
30
      volumeMounts:
31
        - name: log
32
          mountPath: /log
33
  volumes:
34
    - name: log
35
      emptyDir: {}
36
EOF
37

38
kubectl get pods init-order-demo -w
39
# init-order-demo   0/1    1/1     Running           0
40

41
# 查看执行日志
42
kubectl logs init-order-demo app
43
# Step 1: Sat Apr 25 10:00:01 UTC 2026
44
# Step 2: Sat Apr 25 10:00:04 UTC 2026
45
# Step 3: Sat Apr 25 10:00:07 UTC 2026

8.3 观察容器终止流程#

1
# 创建一个带 preStop 钩子的 Pod
2
kubectl apply -f - <<EOF
3
apiVersion: v1
4
kind: Pod
5
metadata:
6
  name: graceful-shutdown
7
spec:
8
  terminationGracePeriodSeconds: 60
9
  containers:
10
    - name: app
11
      image: nginx:1.25
12
      lifecycle:
13
        preStop:
14
          exec:
15
            command: ["/bin/sh", "-c", "echo 'Graceful shutdown started' && nginx -s quit && sleep 10 && echo 'Graceful shutdown completed'"]
16
EOF
17

18
# 等待 Pod 运行
19
kubectl wait --for=condition=Ready pod/graceful-shutdown
20

21
# 删除 Pod 并观察事件
22
kubectl delete pod graceful-shutdown &
23
kubectl get events --field-selector involvedObject.name=graceful-shutdown -w
24
# 你会看到 preStop 钩子执行、SIGTERM 发送、容器退出的完整过程
25

26
# 对比：不带 preStop 的容器收到 SIGTERM 后可能直接退出
27
# Nginx 默认处理 SIGTERM 的方式是 worker 进程在处理完当前请求后退出

8.4 检查 CRI 运行时信息#

1
# 查看 containerd 版本和 CRI 支持情况
2
crictl info | jq '.config.cni'
3
crictl info | jq '.config.containerd.runtimes'
4
# {
5
#   "runc": {
6
#     "runtimeType": "io.containerd.runc.v2",
7
#     "options": {"BinaryName": "/usr/bin/runc"}
8
#   },
9
#   "runsc": {
10
#     "runtimeType": "io.containerd.runsc.v1",
11
#     "options": {"BinaryName": "/usr/bin/runsc"}
12
#   }
13
# }
14

15
# 查看容器运行时详情
16
kubectl get nodes -o jsonpath='{.items[0].status.nodeInfo.containerRuntimeVersion}'
17
# containerd://1.7.8
18

19
# 查看容器日志（通过 crictl）
20
CONTAINER_ID=$(crictl ps --name app -q | head -1)
21
crictl logs $CONTAINER_ID
22

23
# 在容器中执行命令
24
crictl exec $CONTAINER_ID cat /etc/hostname

九、本章小结#

上一章理解了Wasm 容器运行时。

本章从 Kubernetes 的视角审视了容器运行时的工作方式，核心要点：

主题	核心要点	关键词
CRI 接口	kubelet 通过 `RuntimeService` 和 `ImageService` 两个 gRPC 服务与容器运行时交互，`RunPodSandbox`、`CreateContainer`、`StartContainer` 是三个最关键的调用	RuntimeService、ImageService、gRPC
Pod Sandbox	pause 容器持有 Pod 的 Network/IPC/UTS Namespace，是 Pod 稳定性的基石——只要 pause 不退出，业务容器的崩溃重启不影响其他容器	pause 容器、Namespace 锚点、僵尸回收
Pod 创建流程	Sandbox → Init Container（串行） → 主容器（并行），每个阶段失败有不同的处理策略	RunPodSandbox、串行/并行、restartPolicy
多容器模式	Sidecar、Ambassador、Adapter 三种模式都利用 Pod 内共享 Network Namespace 的特性，通过 localhost 通信	Sidecar、Ambassador、Adapter、localhost
Init Container	串行执行、必须成功退出、失败后整个 Pod 重启；Kubernetes 1.28+ 的原生 Sidecar Container 通过 `restartPolicy: Always` 标记	串行、exit 0、Sidecar Container
容器生命周期	`postStart`/`preStop` 钩子、SIGTERM/SIGKILL 终止流程、`terminationGracePeriodSeconds` 宽限期	postStart、preStop、SIGTERM、宽限期

Warning

Pod 中共享 Network Namespace 意味着端口冲突是真实风险——两个容器不能监听同一个端口。在设计多容器 Pod 时，务必规划好端口分配。此外，共享 IPC Namespace 可能导致 System V IPC 资源泄漏，建议只在明确需要时启用 shareProcessNamespace。

这些知识将前几章的容器运行时原理与 Kubernetes 的编排实践连接起来。Ch09 容器完整流程追踪了 docker run 的完整调用链，本章则追踪了 Pod 创建的完整调用链——两者在底层都是 runc 创建 Namespace、配置 Cgroup、挂载 OverlayFS，区别在于 Kubernetes 通过 CRI 和 Sandbox 机制增加了 Pod 级别的编排语义。Ch07 containerd 架构介绍了 containerd 的内部设计，本章展示了 kubelet 如何通过 CRI 驱动 containerd。Ch10 容器安全中的 seccomp/AppArmor/Capabilities 同样适用于 Kubernetes 中的容器——Pod 的 securityContext 就是这些安全机制的 K8s 抽象。