什么是云计算？ - souloss Blog

如果你问一个内核工程师”云计算是什么”，他可能会从 Hypervisor 和虚拟化指令集讲起；问一个 DevOps 工程师，他会谈 CI/CD 和基础设施即代码；问一个业务开发，他可能关心的是云数据库和对象存储的 API 调用。

刚参加工作时，我也曾以为云计算就是 “把服务器搬到网上”。直到我从最底层的 Linux 资源隔离机制开始，逐步搭建虚拟机代理、监控系统、应用网关、存储组件，再到完成一套 PaaS 平台的交付，最后驻场帮客户完成上云迁移。走完这条从底层到应用、从研发到交付的完整链路后，我才意识到：云计算不是一个技术栈，而是一种全新的资源组织范式。

这篇文章，我想尽量多视角、多维度地回答这个问题：

云计算的历史：它从哪里来，为什么会出现？
云计算的技术本质：虚拟化、软件定义、弹性伸缩背后究竟是什么？
资源调度与隔离的底层机制：cgroups、namespace、Hypervisor 如何实现租户隔离？
虚拟机时代 vs 容器时代：两个范式的本质区别是什么？
云计算的商业逻辑：NIST 官方定义、CapEx 转 OpEx、计费模型是什么？
云计算的服务模型：IaaS/PaaS/SaaS/FaaS 的边界、技术实现与选型指导
云计算的部署形态：公有云、私有云、混合云、多云的架构差异与决策框架
云计算的生态全景：主要玩家、市场格局、产业链是怎样的？
云计算对行业的影响：它改变了什么，又带来了哪些新问题？
云计算的未来：下一个十年，云会走向何方？

一、云计算小传：从萌芽到壮大#

1.1 远古时代：计算资源的稀缺与共享#

要理解云计算的起源，得先回到计算资源极度稀缺的年代。

1960 年代，一台 IBM System/360 大型主机造价高达数百万美元，只有大型企业和科研机构才能负担。为了最大化利用这些昂贵的机器，分时系统（Time-Sharing System） 随之出现。MIT 的 CTSS（Compatible Time-Sharing System，1961 年）和 Multics（1969 年）是早期代表。多个用户通过哑终端轮流使用同一台主机，每人”租用”一段计算时间。这其实已经有了云计算的影子：资源池化、按需分配、多租户共享。

计算机科学先驱 John McCarthy 在 1961 年麻省理工学院百周年庆典上预言：“计算将来某天可以像电话一样，成为一种公共设施（utility）。” 这句话，比云计算的真正到来早了整整四十年。

1.2 个人电脑时代：计算资源的分散与浪费#

1980—90 年代，个人电脑（PC）的普及让计算资源”飞入寻常百姓家”。但随之而来的是新的问题：每个企业都要自建 IT 基础设施。IDC 时代物理服务器的平均利用率通常只有 5%~15%（数据来源：McKinsey & Company，2009 年报告 Clearing the Air on Cloud Computing），大量计算资源在闲置状态中白白消耗电力。一旦业务高峰来临，提前三到六个月采购的服务器往往还没到货，业务已经扛不住了。这种成本高、效率低、响应慢的模式，是云计算要解决的根本矛盾。

1.3 虚拟化革命：云计算的技术基础#

进入 2000 年代，服务器虚拟化技术逐渐成熟，这成为现代云计算的重要技术基础。

虚拟化技术允许在一台物理服务器上运行多个虚拟机，每个虚拟机拥有独立的操作系统和资源，从而显著提高硬件利用率。以 VMware 为代表的企业推动了商用虚拟化技术的发展，而开源虚拟化项目 Xen 和 Kernel-based Virtual Machine（KVM）则在互联网公司中得到广泛应用。

通过虚拟化，数据中心可以将计算资源抽象为统一的资源池，并根据需求动态分配计算能力。这一能力成为后来 弹性计算（Elastic Computing） 的技术基础。

1.4 互联网浪潮：催生云计算的土壤#

1990 年代末到 2000 年代初，互联网泡沫催生了大量互联网公司，这些公司有一个共同特点：流量波动极大，难以预测。一家电商网站，平日访问量可能只有高峰期的十分之一，但为了应对高峰，不得不按峰值配置服务器。泡沫破裂后，大量服务器被闲置，这反而成了云计算的起点。

Amazon 就是在这个背景下走向云计算的。2002 年，Amazon 内部推行了著名的 “API Mandate”（API 强制令），要求：

所有团队必须通过标准化 API 暴露能力；
不允许直接访问内部服务；
违反规定者，一律开除。

这一改革迫使 Amazon 将内部服务模块化、平台化，为后来的云平台奠定了架构基础。2006 年，Amazon 正式推出 Amazon Simple Storage Service（S3） 和 Amazon Elastic Compute Cloud（EC2），允许开发者通过互联网租用存储和计算资源。现代云计算由此正式进入商业化阶段。

1.5 云计算的爆发：2006—2016#

Amazon Web Services (AWS) 的成功很快引发了整个行业的跟进：

2008 年：Google 推出 App Engine（PaaS 的早期形态）
2010 年：Microsoft 推出 Azure
2010 年：OpenStack Foundation 推动的 OpenStack 开源项目启动，使企业能够构建自己的私有云
2011 年：美国国家标准与技术研究院（NIST）发布云计算定义标准 SP 800-145，明确了云计算的五个核心特征：
- 按需自助服务
- 广泛网络访问
- 资源池化
- 快速弹性扩展
- 可计量服务
2013 年：Docker 开源，容器技术进入主流视野
2014 年：Google 开源 Kubernetes，容器编排格局从此确立
2015 年：CNCF（云原生计算基金会）由 Linux 基金会成立，K8s 成为首个托管项目

这十年间，云计算从”新鲜事物”变成了”行业共识”，从技术创新逐渐演变为社会基础设施。

1.6 云原生时代：2016 年至今#

2016 年后，云计算进入 云原生（Cloud Native） 时代。差不多同一时期，新的开发模式也开始出现。例如 2014 年 Amazon 推出的 AWS Lambda，使开发者可以直接运行代码而无需管理服务器，这种模式被称为 Serverless。

云原生不是一个营销词汇，它代表了一种架构范式的根本转变：从 “在云上运行传统应用” 到 “为云的环境特性重新设计应用”。这种转变的核心驱动力是云的弹性、分布式、按需付费这些特性，传统架构根本利用不起来。

一个单体应用搬到云上，还是单体应用。它不会因为跑在 EC2 上就自动获得弹性。要让弹性生效，应用必须拆成可独立扩缩的服务（微服务），打包成可快速创建销毁的单元（容器），用声明式的方式描述基础设施期望状态（IaC/GitOps），让每次变更都经过自动化验证（CI/CD）。这四个要素，微服务、容器、声明式基础设施、持续交付，构成了云原生的技术内核。

云计算从一种基础设施选择，逐渐演变为现代软件系统的默认运行环境。

几个数字可以说明这种演变的速度。Synergy Research Group 的数据显示，全球云基础设施服务市场（IaaS + PaaS + 托管私有云）从 2014 年的约 100 亿美元增长到 2024 年的 3300 亿美元，十年翻了 30 倍。Gartner 口径下的 IaaS 单项市场从 2015 年的 170 亿美元增至 2024 年的 1718 亿美元，CAGR 约 29%。2025 年，Synergy 口径的全球市场已突破 4000 亿美元，2026 年预计首次越过 5000 亿美元（Q1 2026 实际值 1290 亿美元，同比 +35%）；Gartner 全口径（含 SaaS）的公有云服务市场则预计在 2026 年突破 1 万亿美元（IDC 2026-03 预测）。

中国大陆市场走了一条先爆发后回落的路径：Canalys 数据显示，2020 年增速高达 +66%，2023 年骤降至 +7%（反垄断与监管影响），2024 年恢复到 +13%，规模约 400 亿美元，占全球 12%。占全球比重在 2021 年达到峰值约 15% 后逐年回落。市场高度集中，阿里云（33%）、华为云（18%）、腾讯云（10%）三家合计 61%（2025 Q1，Canalys + Omdia）。

Note

数据口径说明：上述全球数据涉及三种常见口径。口径 A（IaaS + PaaS + 托管私有云，Synergy Research Group 主用，最宽）、口径 B（仅 IaaS，Gartner 主用，最严格可比）、口径 C（含 SaaS 全口径，Gartner/IDC 主用）。同一年的数据在不同口径下差异显著，例如 2024 年全球市场：口径 A 约 $330B，口径 B 约 $172B，口径 C 约 $596B。引用时务必核对口径。

二、云计算的技术本质#

Note

云计算是通过软件手段，将物理硬件资源池化，并以标准化、弹性化的方式按需分配给用户的技术体系。

这句话里有五个关键词：软件手段、资源池化、标准化、弹性化、按需分配。

2.1 虚拟化：云计算的地基#

虚拟化（Virtualization） 解决的核心问题是：如何让一台物理机同时运行多个相互隔离的操作系统，并将资源利用率从 5%~15% 提升到 65% 以上？

硬件虚拟化：Intel VT-x 与 AMD-V#

早期软件虚拟化需要用 “二进制翻译（Binary Translation” 拦截特权指令，性能损耗极大。2005—2006 年，Intel 和 AMD 分别推出 VT-x 和 AMD-V 硬件扩展，引入新的 CPU 运行模式：

VMX Root Mode（宿主模式）：Hypervisor 运行于此，拥有最高权限
VMX Non-Root Mode（客户模式）：Guest OS 运行于此，执行特权指令时自动触发 VM Exit 陷入 Hypervisor，处理完成后 VM Entry 返回

Intel EPT（Extended Page Tables） 和 AMD NPT（Nested Page Tables） 进一步在硬件层实现了内存地址转换（Guest Physical Address → Host Physical Address），消除了软件 Shadow Page Table 的巨大开销。

Hypervisor 类型与主流实现#

mindmap root((物理服务器（支持 Intel VT-x / AMD-V）)) Type 1 Hypervisor（裸金属，直接运行于硬件） KVM（Linux 内核模块，配合 QEMU 模拟设备） VMware ESXi Microsoft Hyper-V Type 2 Hypervisor（托管于宿主 OS 之上，用于开发测试） VirtualBox VMware Workstation

KVM（Kernel-based Virtual Machine） 自 Linux 2.6.20（2007 年）合入内核主线，将 Linux 内核本身变为 Hypervisor；QEMU 负责设备模拟（网卡、磁盘控制器等）。AWS Nitro、阿里云神龙架构的底层均基于 KVM 演化而来，是当今最广泛部署的开源虚拟化方案。

存储虚拟化：分布式存储系统#

云硬盘不是你专属的某块物理磁盘，而是分布式存储系统抽象出来的逻辑卷。一块 500GB 的云硬盘实际上可能分散在数十台物理服务器上，通常采用 三副本（3 replicas） 或 纠删码（Erasure Code，EC） 保障可靠性。EC 在相同可靠性下存储开销更低（如 EC 8+3 仅需 1.375 倍空间，而三副本需要 3 倍）。代表技术：Ceph（支持块存储 RBD、对象存储 RGW、文件存储 CephFS 三合一）以及各云厂商自研系统（如 AWS EBS 背后的 NVMe-oF 网络块存储架构）。

网络虚拟化：SDN 与 VXLAN#

软件定义网络（SDN） 将控制平面与数据平面分离。云上 VPC 隔离的核心技术是 VXLAN（Virtual eXtensible LAN，IETF RFC 7348），其数据包从外到内依次封装：

Outer Ethernet + IP：物理网络的 MAC 和 IP（VTEP 端点地址）
UDP Header：目标端口 4789，用于标识 VXLAN 流量
VXLAN Header：含 24-bit VNI（VXLAN Network Identifier），支持约 1,677 万个隔离虚拟网络，远超传统 VLAN 的 4,096 个限制
Inner Ethernet + IP/Payload：虚拟网络内的 MAC 地址和 VM/容器的实际通信数据

VNI（VXLAN Network Identifier） 为 24 位，支持约 1,600 万个隔离虚拟网络，远超传统 VLAN 的 4096 个限制。不同租户分配不同 VNI，物理网络上流转的始终是封装后的外层包，租户间天然隔离。数据平面通常由 OVS（Open vSwitch） 实现，控制平面由 OpenStack Neutron 或 K8s CNI 插件（Calico/Cilium/Flannel）下发流表规则。Cilium 基于 Linux eBPF 将网络策略直接注入内核，是目前性能最佳的 CNI 方案之一。

2.2 软件定义：用代码管理一切#

基础设施即代码（IaC，Infrastructure as Code） 是云计算最深刻的工程变革之一：把原来由人工操作完成的基础设施配置，全部变成可版本化、可审计、可重复执行的代码。

1
# Terraform 声明一台 AWS 云服务器（示例）
2
resource "aws_instance" "web_server" {
3
  ami           = "ami-0c55b159cbfafe1f0"
4
  instance_type = "t3.medium"
5
  subnet_id     = aws_subnet.public.id
6

7
  tags = {
8
    Name        = "ProductionWebServer"
9
    Environment = "prod"
10
  }
11
}

这段代码可以在任何时候被执行，在全球任何 AWS Region 创建出完全一致的服务器。传统运维需要数天的工作，云上只需数十秒。

IaC 的核心价值：可重复性（消除”在我机器上能跑”）、版本管理（基础设施变更可被 Git 追踪回滚）、自动化（与 CI/CD 集成，无需人工介入）、审计性（每次变更有记录，满足合规要求）。

主流 IaC 工具：Terraform（HashiCorp，声明式，多云支持，事实标准）、Pulumi（支持 Python/TypeScript 等通用语言）、AWS CloudFormation / 阿里云 ROS（各厂商原生方案）。

2.3 弹性伸缩：云计算的灵魂#

弹性（Elasticity） 是云计算区别于传统 IDC 最本质的特征：资源可以随业务负载动态扩缩，用完即还，不再为”可能到来的高峰”常年维护一批闲置服务器。

弹性的两个维度#

维度	说明	适用场景
水平扩展（Scale Out/In）	增减实例数量	无状态服务（Web 服务器、API 网关）
垂直扩展（Scale Up/Down）	升降单实例规格（CPU/内存）	有状态服务（数据库），但有上限且需重启

Auto Scaling 的实现原理（以 AWS ASG 为例）#

ASG（Auto Scaling Group）通过监控指标，自动调整实例数量，核心流程如下：

flowchart LR A["CloudWatch 指标\n(CPU/内存/请求数/自定义)"] --> B{超过阈值？} B -->|是，超过上限| C["触发 Scale Out 策略\n(增加实例)"] B -->|是，低于下限| D["触发 Scale In 策略\n(减少实例)"] B -->|否| A C --> E["从 Launch Template\n启动新 EC2 实例"] E --> F["新实例注册到 ALB\n（等待健康检查通过）"] F --> G["实例进入服务状态\n正式分担流量"] D --> H["标记最旧/负载最低实例\n等待连接排空（Draining）"] H --> I["终止实例\n释放资源"]

ASG 支持多种伸缩策略：**目标追踪（Target Tracking）**维持指标在目标值附近（如 CPU 使用率保持 60%），最简单常用；**步进伸缩（Step Scaling）**按指标偏离幅度分级扩缩；**预置伸缩（Scheduled Scaling）**针对可预测的流量高峰（如整点秒杀）提前扩容。

Kubernetes 的弹性伸缩更细粒度，分三层：

HPA（Horizontal Pod Autoscaler）：根据 CPU/内存或自定义指标自动调整 Pod 副本数
VPA（Vertical Pod Autoscaler）：自动调整单个 Pod 的 resource requests/limits
CA（Cluster Autoscaler）：当 Pod 因资源不足无法调度时，自动向云厂商 API 申请新 Worker Node 加入集群

弹性的商业意义：CapEx → OpEx#

模式	支出类型	特点
传统 IDC	CapEx（资本性支出）	提前按峰值购买服务器，折旧周期 3~~5 年，采购周期 3~~6 个月，资产上资产负债表
云计算	OpEx（运营性支出）	按实际使用量付费，随时扩缩，无最低消费（按需实例），不占用资产负债表

这对初创公司尤为重要。它们不需要在 B 轮融资前就锁定数百万的硬件采购，可以将资金集中投入产品研发。

三、资源隔离的底层机制：多租户如何”老死不相往来”#

不同用户的工作负载运行在同一批物理机上，凭什么互不干扰？这是云计算技术中最关键也最容易被忽略的部分。

3.1 虚拟机时代：硬件级强隔离#

虚拟机依赖 Intel VT-x/AMD-V 实现真正意义上的硬件级隔离：

CPU 隔离：VM Exit 机制确保 Guest OS 的特权指令不能直接影响 Hypervisor 和其他 VM；CPU Pinning 可将 vCPU 绑定到特定 pCPU，消除调度抖动，适合延迟敏感型负载
内存隔离：EPT/NPT 为每个 VM 提供完全独立的物理地址空间，VM 无法访问其他 VM 的内存页；KSM（Kernel Samepage Merging）在宿主机层面合并相同内容的内存页，节省物理内存
设备隔离：所有 I/O 请求经 Hypervisor 仲裁；高性能场景下使用 SR-IOV（Single Root I/O Virtualization） 让 VM 直接访问物理网卡的虚拟功能（VF），绕过软件模拟层
安全边界：即使 Guest OS 内核被攻破，攻击者仍被 Hypervisor 的硬件边界阻挡（除非存在极罕见的 VM 逃逸漏洞）

vCPU 调度原理：vCPU 本质上是宿主机上的一个 POSIX 线程，由宿主机 Linux 的 CFS（Completely Fair Scheduler）调度到物理 CPU 核上执行。云厂商通常对 vCPU 进行超卖（Overcommit），分配给所有 VM 的 vCPU 总数超过物理 pCPU 数量，依赖统计复用降低成本。同时，内存气球（Memory Ballooning） 技术允许宿主机在内存紧张时通知 VM 内的 Balloon Driver 归还闲置内存页。

3.2 容器时代：内核级软隔离#

容器不是虚拟机，它与宿主机共享同一个 Linux 内核。隔离和资源限制依赖两个 Linux 内核特性：Namespace 和 cgroups。

Linux Namespace：隔离”看到什么”#

Namespace 让每个容器拥有独立的系统视图（来源：man 7 namespaces，Linux Kernel Documentation）：

Namespace	内核版本引入	隔离的资源
Mount	2.4.19 (2002)	文件系统挂载点，容器有独立根文件系统
UTS	2.6.19 (2006)	主机名（hostname）和 NIS 域名
IPC	2.6.19 (2006)	System V IPC、POSIX 消息队列
Network	2.6.24 (2008)	网络接口、路由表、防火墙规则、Socket
PID	3.8 (2013)	进程 ID 空间，容器内的 PID 1 与宿主机无关
User	3.8 (2013)	用户/组 ID，容器内 root 可映射为宿主机普通用户
Cgroup	4.6 (2016)	cgroup 视图，防止容器探测宿主机 cgroup 结构
Time	5.6 (2020)	系统时钟偏移，容器可有独立时钟

创建容器本质上就是在 clone() 系统调用时设置上述 Namespace 标志位，进程进入新的隔离视图。

Linux cgroups：限制”能用多少”#

cgroups（Control Groups） 由 Google 工程师 Paul Menage 和 Rohit Seth 开发，2008 年合入 Linux 2.6.24，负责对进程组的资源使用进行计量（accounting）、限制（limiting）和控制（control）。

1
# ── cgroups v1 示例（/sys/fs/cgroup/ 下）──────────────────────
2

3
# CPU 限制：每 100ms 调度周期内最多使用 50ms（相当于 0.5 核）
4
echo 100000 > /sys/fs/cgroup/cpu/mycontainer/cpu.cfs_period_us
5
echo  50000 > /sys/fs/cgroup/cpu/mycontainer/cpu.cfs_quota_us
6

7
# 内存限制：最多使用 512MB（超出触发 OOM Kill）
8
echo 536870912 > /sys/fs/cgroup/memory/mycontainer/memory.limit_in_bytes
9

10
# 磁盘 I/O 限制：对 sda（8:0）写入速度限制为 10MB/s
11
echo "8:0 10485760" > /sys/fs/cgroup/blkio/mycontainer/blkio.throttle.write_bps_device

cgroups v2（统一层级，Linux 4.5+，RHEL 9 / Ubuntu 22.04 等现代发行版已默认启用）引入了更清晰的模型：cpu.weight（替代 v1 的 cpu.shares，基于权重的 CPU 时间分配）、memory.oom.group（OOM 时整组一起被杀，避免状态不一致）。Kubernetes 从 1.25 版本开始正式完整支持 cgroups v2。

Warning

关键结论：Namespace 隔离”视图”（进程看到什么），cgroups 限制”资源量”（进程能用多少），但内核本身是共享的。若内核存在漏洞（如 Dirty COW CVE-2016-5195、runc 逃逸漏洞 CVE-2019-5736），攻击者有可能从容器逃逸到宿主机。这是容器隔离相对 VM 更弱的根本原因，也是金融、政务等安全敏感场景仍以 VM 作为租户边界的原因。

四、虚拟机时代 vs 容器时代#

理解这两个范式的本质差异，是理解整个云原生演进的关键。

4.1 本质差异全景对比#

维度	虚拟机（VM）	容器（Container）
内核	每个 VM 有独立 OS 内核	共享宿主机内核
隔离机制	硬件虚拟化（VT-x）+ Hypervisor	Linux Namespace + cgroups
隔离强度	强（硬件级边界）	较弱（内核级，共享内核）
镜像大小	GB 级（含完整 OS）	MB 级（仅应用 + 依赖库）
启动时间	秒~分钟级	毫秒~秒级
资源密度	单物理机部署数十个 VM	单物理机可运行数百个容器
性能损耗	5%~10%（硬件辅助后）	<1%（接近原生，但共享内核可能有竞争）
可移植性	镜像大，跨平台迁移慢	OCI 标准化镜像，跨环境一致
状态管理	天然有状态，磁盘持久化	设计上无状态，数据用外挂 Volume
典型场景	多租户强隔离、Windows 负载、传统应用	微服务、CI/CD、高密度无状态服务

4.2 Docker 带来的范式转变#

Docker（2013 年） 的最大贡献不是技术本身（Namespace 和 cgroups 早已存在），而是把这些技术整合成了工程师友好的工作流：

分层镜像（Layered Image）：基于 OverlayFS，每一层只存储变更内容，多个镜像共享相同基础层，节省磁盘和传输带宽
Dockerfile：声明式代码描述镜像构建，镜像可版本化、可复现
Registry：Docker Hub 等镜像仓库让分发像 Git push/pull 一样简单
OCI 标准：Docker 推动 OCI（Open Container Initiative）规范统一容器镜像格式（Image Spec）和运行时接口（Runtime Spec），使 containerd、CRI-O 等运行时百花齐放

容器 ≠ 银弹：容器不擅长有状态服务（数据库的 Persistent Volume 性能弱于裸 VM），也不适合强安全隔离。这催生了 gVisor（Google，用户态内核沙箱）和 Kata Containers（轻量级 VM 封装容器）等”安全容器”方案，兼顾容器的轻量和 VM 的隔离性。

4.3 Kubernetes：容器时代的操作系统#

Kubernetes（K8s）解决的是：如何在集群中编排成千上万个容器？

kube-scheduler 两阶段调度（来源：Kubernetes 官方文档 Scheduling Framework）：

阶段一：过滤（Filtering）：找出所有能运行该 Pod 的 Node，排除不满足 resource requests、Taint/Toleration、亲和性规则等约束的节点
阶段二：打分（Scoring）：对候选节点打分，默认策略包括：LeastAllocated（优先资源使用率低的节点，均衡负载）、MostAllocated（优先资源使用率高的节点，Bin Packing 提升装箱密度）、NodeAffinity、InterPodAffinity

资源 Requests/Limits 与 cgroups 的映射：

1
resources:
2
  requests:
3
    cpu: "500m" # 调度依据：Node 上已分配 requests 之和不超过节点容量
4
    memory: "256Mi"
5
  limits:
6
    cpu: "1000m" # → cgroups cpu.cfs_quota_us（运行时 CPU 上限）
7
    memory: "512Mi" # → cgroups memory.limit_in_bytes（超出触发 OOM Kill）

由此衍生出三种 Pod QoS 等级（决定内存压力时 OOM Kill 的优先顺序）：

QoS	条件	OOM 优先级
Guaranteed	requests == limits（CPU + 内存均如此）	最后被 Kill
Burstable	requests < limits	中间
BestEffort	未设置 requests/limits	最先被 Kill

五、云计算的商业逻辑#

5.1 NIST 标准定义#

2011 年，美国国家标准与技术研究院（NIST）发布 Special Publication 800-145《The NIST Definition of Cloud Computing》，给出了迄今最权威的定义：

Cloud computing is a model for enabling ubiquitous, convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction.

NIST 定义了五个基本特征（Essential Characteristics）：

按需自助服务（On-demand Self-service）：用户无需人工介入，可自助开通/关闭资源
广泛的网络访问（Broad Network Access）：通过标准网络协议，可从电脑、手机等多种终端访问
资源池化（Resource Pooling）：多租户共享动态分配的资源池，用户通常不关心资源的物理位置
快速弹性（Rapid Elasticity）：资源可快速弹性扩缩，对用户来说资源似乎”无限可用”
可度量的服务（Measured Service）：资源使用可监控、控制和报告，支持按量计费

NIST 同时定义了 3 种服务模型（SaaS/PaaS/IaaS）和 4 种部署模型（公有云/私有云/混合云/社区云），这是第六章和第七章完整展开的依据。

5.2 云计算的计费体系：按用付费的多种形态#

理解云的商业逻辑，必须理解其计费体系。以 AWS EC2 为例（来源：AWS EC2 Pricing 官方文档）：

计费类型	折扣	承诺	典型场景
按需实例（On-Demand）	原价，按秒/小时	无承诺，随时启停	短期、不可预测的工作负载
预留实例（Reserved，1 年/3 年）	节省 40%~72%	承诺使用期限，预付部分/全部费用	稳定运行的生产工作负载
Savings Plans	与预留实例相近	承诺每小时最低消费（$X/hr），更灵活	多种实例类型混用时更优
竞价实例（Spot）	节省最高 90%	无承诺，AWS 可随时中断（提前 2 分钟通知）	批处理、大数据、容错型负载
专用主机（Dedicated Host）	最贵，按物理主机计费	独占物理服务器，可 BYOL	软件 License 绑定物理核心的场景

Tip

工程实践：混合使用按需实例（保底基线）+ Savings Plans（稳定负载）+ Spot 实例（弹性峰值），可在保证可用性前提下将计算成本降低 50%~70%。

5.3 云计算的规模经济：为什么云厂商有成本优势？#

云厂商的成本优势来自三个叠加因素：

规模采购：AWS 每年采购数百万台服务器，单台硬件成本远低于普通企业
资源复用：虚拟化超卖让物理资源利用率从企业自建的 5%~15% 提升到 60%~80%
运维自动化：数据中心自动化程度极高，数千台服务器只需少量工程师管理

这三点叠加，让云厂商能以低于企业自建 TCO 的成本提供更高质量的基础设施，这是云计算商业模式成立的根本原因。

六、云计算的服务模型：IaaS、PaaS、SaaS 与新兴 XaaS#

NIST SP 800-145 定义了三种服务模型，但云计算发展至今已延伸出更多细分层次。理解这些模型的核心是把握**“谁管理什么”**的边界。

6.1 责任边界总览#

层级	自建 IDC	IaaS	PaaS	SaaS
应用代码	用户	用户	用户	云管
运行时/框架	用户	用户	云管	云管
数据库/中间件	用户	用户	用户	云管
操作系统	用户	用户	云管	云管
虚拟化/容器	用户	云管	云管	云管
物理网络/服务器	用户	云管	云管	云管
数据中心/机房	用户	云管	云管	云管
用户管理的层次	7	3~4	1~2	0

6.2 IaaS（Infrastructure as a Service，基础设施即服务）#

IaaS 是”租用虚拟化硬件”：云厂商提供计算、存储、网络的虚拟化资源，用户自管 OS 以上的一切。

计算（Compute）：实例类型体系#

以 AWS EC2 为例，实例类型针对不同工作负载优化：

系列	用途	典型型号	典型场景
通用型（M 系列）	CPU/内存均衡	m7i.xlarge（4C/16G）	Web 服务、小型数据库
计算优化（C 系列）	高 CPU	c7g.2xlarge（8C/16G）	批处理、科学计算、游戏服务器
内存优化（R/X 系列）	高内存	r7i.8xlarge（32C/256G）	Redis、SAP HANA、内存数据库
存储优化（I 系列）	高 IOPS NVMe	i4i.2xlarge（8C/64G）	高性能数据库、Elasticsearch
GPU 实例（P/G 系列）	GPU 加速	p4d.24xlarge（96C/8×A100）	AI 训练/推理、图形渲染
ARM 架构（Graviton）	高性价比	c7g.xlarge（AWS 自研 ARM）	通用 Web/API，性价比高 30%+

存储（Storage）：三大类型#

类型	典型产品	访问方式	特点	典型场景
块存储（Block）	AWS EBS、阿里云云盘	挂载为块设备（/dev/xvda）	低延迟，需挂载到实例	数据库、OS 系统盘
对象存储（Object）	AWS S3、阿里云 OSS	HTTP REST API	海量存储，按容量计费，无需挂载	静态文件、备份、数据湖
文件存储（File）	AWS EFS、阿里云 NAS	NFS/SMB 协议挂载	多实例共享访问	共享配置、CMS

网络（Network）：VPC 核心组件#

mindmap root((VPC（虚拟私有云，用户独立的虚拟网络）)) Public Subnet（公有子网）实例通过 Internet Gateway 访问公网关联 Route Table（0.0.0.0/0 → Internet Gateway） Private Subnet（私有子网）实例不可直接访问公网关联 Route Table（0.0.0.0/0 → NAT Gateway） Security Group（安全组） Network ACL（网络 ACL） NAT Gateway（让私有子网实例访问公网，但外部无法主动访问） VPC Peering / Transit Gateway（多 VPC 互通）

IaaS 的适用场景与局限#

适合：有技术团队的企业，传统应用”Lift & Shift”直接搬云，需要定制化 OS/内核配置的场景。

局限：用户需要自管 OS 补丁、中间件配置、监控部署等，运维负担较重。大量重复性运维工作推动了 PaaS 的出现。

6.3 PaaS（Platform as a Service，平台即服务）#

PaaS 是”租用完整的应用运行平台”：用户只需关注应用代码和业务数据，其余一切由云厂商托管。

传统 PaaS：Heroku 模式#

以 Heroku 为例，它向用户屏蔽了：运行时管理（Python/Node.js/Java 运行环境安装）、自动扩缩容（按 HTTP 请求数调整 Dyno 数量）、健康检查与故障恢复、路由与负载均衡、日志聚合。

Heroku 的 Buildpack 机制是经典设计：git push heroku main 后，Heroku 自动检测语言，使用对应 Buildpack 构建可运行 Slug，完成部署。开发者甚至不需要写 Dockerfile。

托管数据库（DBaaS）：最成熟的 PaaS 形态#

AWS RDS / Aurora / 阿里云 PolarDB 把”安装配置数据库”变成了点击订阅：

传统自建	DBaaS
安装 MySQL，手动调优参数	控制台选版本，一键创建，5 分钟可用
手动搭建主从复制	自动 Multi-AZ 高可用（同步复制，故障切换 < 60s）
定期手动备份，手动恢复	自动全量 + 增量备份，PITR（Point-in-Time Recovery）
停服手动升级补丁	自动小版本升级，可配置维护窗口
停服手动扩容	多数支持在线存储扩容或读写分离横向扩展

AWS Aurora 的计算存储分离架构值得特别说明：存储层由 6 个副本分布在 3 个 AZ，计算层（MySQL/PostgreSQL 兼容）可独立扩缩，读副本延迟通常在 10ms 以内，写性能比社区 MySQL 高约 5 倍（来源：AWS Aurora 官方白皮书）。

托管 K8s：现代 PaaS 的主流形态#

AWS EKS / GKE / Azure AKS / 阿里云 ACK 是目前部署最广泛的 PaaS 形态：云厂商托管 K8s Control Plane（API Server、etcd、Scheduler、Controller Manager），用户只需关注 Data Plane（Worker Node 上的业务 Pod）。

mindmap root((云厂商托管（用户不可见，SLA 覆盖）：)) kube-apiserver（K8s API 入口） etcd（集群状态存储，跨 AZ 高可用） kube-scheduler（Pod 调度） kube-controller-manager（副本数协调、Node 故障处理）用户管理： Worker Node（EC2/ECS 实例，节点组） Pod / Deployment / StatefulSet / DaemonSet Service / Ingress（服务发现和流量入口） Namespace / RBAC / NetworkPolicy（多租户访问控制）

PaaS 的核心权衡：便利性 vs 灵活性 vs 锁定风险#

维度	通用 PaaS（Heroku）	托管 K8s（EKS/GKE）	自建 K8s
运维复杂度	极低	中	高
灵活性	低（Buildpack 限制）	高	最高
厂商锁定风险	高	中（K8s 跨云可迁移）	低
适合规模	小型团队/初创	中大型团队	大型团队/特殊需求

Tip

锁定风险：深度依赖专有 PaaS API（如 AWS Lambda 触发器模型、Google App Engine 的 Datastore API）后，迁移成本极高。选择基于开放标准的 PaaS（如 K8s 兼容的服务）是降低锁定风险的主要策略。

6.4 SaaS（Software as a Service，软件即服务）#

SaaS 是”租用完整软件应用”：用户直接使用，无需关心任何基础设施，通常按用户数/功能模块订阅。

SaaS 的多租户数据隔离架构#

SaaS 最核心的工程挑战是多租户数据隔离，三种主流架构模型：

模型	实现方式	隔离强度	资源效率	典型场景
Silo（筒仓）	每个租户独立数据库实例	最强	最低（资源碎片化）	高安全要求客户（金融/医疗）
Bridge（桥接）	共享数据库实例，每租户独立 Schema	中	中	中大型 SaaS
Pool（池化）	共享数据库 + 共享表，`tenant_id` 列区分	较弱（应用层隔离）	最高	长尾小客户为主的 SaaS

现代 SaaS 通常采用混合策略：高价值大客户使用 Silo（甚至独立部署），长尾小客户使用 Pool，在安全、成本、运维之间取得平衡。

SaaS 的商业模式与核心指标#

SaaS 采用**订阅制（Subscription）**计费，核心业务指标：

MRR/ARR（月/年经常性收入）：SaaS 规模的最核心指标
Churn Rate（流失率）：每月/年有多少比例客户或收入流失，是健康度的关键信号
NRR（净收入留存）：同一批客户收入的同比变化，> 100% 表示扩张收入超过流失（优质 SaaS 的重要特征）
LTV/CAC 比值：客户生命周期价值 / 客户获取成本，> 3 是 SaaS 盈利健康的经验阈值

典型 SaaS 产品：Salesforce（CRM，全球 SaaS 鼻祖，2024 财年 ARR 超 350 亿美元）、Microsoft 365、Snowflake（数据仓库 SaaS）、钉钉 / 飞书（中国市场）。

6.5 新兴 XaaS：服务模型的进一步细分#

模型	全称	核心产品	用户关注点
CaaS	Container as a Service	AWS ECS/Fargate、阿里云 ASK	容器，无需管 K8s Control Plane
FaaS	Function as a Service	AWS Lambda、阿里云 FC	函数代码，按调用次数计费
DBaaS	Database as a Service	RDS、PolarDB、MongoDB Atlas	SQL/数据，无需管数据库运维
AIaaS	AI as a Service	SageMaker、Azure OpenAI	模型 API 调用，无需管 GPU 集群
DaaS	Desktop as a Service	AWS WorkSpaces	虚拟桌面，无需管 VDI 基础设施

Serverless（FaaS）详解：Serverless 是”按需付费”理念的极致，代码只在被调用时运行，按执行次数和时长计费（精确到 1ms），无流量时零费用。

1
# AWS Lambda 函数示例：S3 上传事件触发自动生成缩略图
2
def lambda_handler(event, context):
3
    bucket = event['Records'][0]['s3']['bucket']['name']
4
    key    = event['Records'][0]['s3']['object']['key']
5
    # 处理图片...
6
    return {'statusCode': 200}
7
# 计费：仅在被触发时产生费用（通常 < 1 美分/千次调用）
8
# 无流量时：零费用

Serverless 的主要挑战是冷启动延迟（容器初始化通常需要数百毫秒到数秒）。AWS Firecracker（KVM-based 轻量级 microVM，启动时间 < 125ms，内存开销约 5MB）和 SnapStart（2022 年，基于 Firecracker 内存快照恢复）是针对性解决方案。

七、云计算的部署形态：从公有云到主权云#

NIST SP 800-145 定义了四种部署模型（公有云、私有云、混合云、社区云），实践中又延伸出了多云和主权云。选择部署形态本质上是在成本、弹性、安全、合规、控制权之间寻找平衡。

7.1 公有云（Public Cloud）#

NIST 定义：云基础设施由云服务提供商拥有和运营，通过互联网向公众或特定行业开放，资源在多个租户之间共享。

全球基础设施架构：Region → AZ → Edge#

mindmap root((全球网络骨干)) Region（地理大区，如 us-east-1 弗吉尼亚、cn-hangzhou 杭州） AZ-1（可用区：独立的数据中心，独立供电/网络/散热） AZ-2（与 AZ-1 距离通常数十公里，光纤直连，延迟 < 1ms） AZ-3 → 跨 AZ 部署实现区域内高可用（单 AZ 故障不影响业务） Region 2（如 ap-southeast-1 新加坡）跨 Region 部署实现全球容灾 Edge Location（边缘节点，数量远多于 Region） → CDN（CloudFront/阿里云 CDN）就近服务终端用户 → 部分计算下沉（Lambda@Edge、阿里云 ENS）

AWS 截至 2024 年在全球拥有 33 个已启用 Region、105 个可用区（来源：AWS Global Infrastructure 官方页面）；阿里云在全球有 30+ 个 Region、100+ 个 AZ。

SLA 与高可用策略#

可用性	每年允许停机时间	典型保证对象
99.9%（三个九）	8.7 小时/年	单 AZ 部署的基础资源
99.95%	4.4 小时/年	跨 AZ 的托管服务（RDS Multi-AZ）
99.99%（四个九）	52 分钟/年	跨 AZ 的关键服务（ELB、Route53）
99.999%（五个九）	5 分钟/年	跨 Region 的 Route53 解析

灾难恢复（DR）四种策略（来源：AWS Disaster Recovery Whitepaper）：

策略	RTO	RPO	成本	说明
备份与恢复	小时级	小时级	最低	定期备份到 S3，灾难时重建
Pilot Light	分钟~小时	分钟级	低	核心组件常驻小规模，灾难时快速扩大
Warm Standby	分钟级	秒级	中	冗余环境小规模运行，灾难时扩容接管
Multi-Site Active-Active	接近零	接近零	最高	多 Region 同时承载流量，任一故障无感切换

优点：无前期投资，弹性极好，全球化部署能力强，硬件维护和安全补丁由云厂商负责。

缺点：数据存放第三方，在强监管行业存在合规顾虑；深度使用专有服务存在厂商锁定风险。

7.2 私有云（Private Cloud）#

NIST 定义：云基础设施专属于单一组织（可能由该组织或第三方管理），可部署在组织内部或外部数据中心。

私有云 ≠ 传统 IDC#

私有云与传统数据中心的根本区别：私有云具备 NIST 定义的五大云计算特征（自助服务、资源池化、弹性、可度量），而传统 IDC 是静态分配的物理机房。私有云是用软件在自有硬件上模拟出”公有云体验”。

OpenStack：开源私有云的事实标准#

OpenStack（2010 年由 NASA + Rackspace 发起）是构建私有云最广泛使用的开源平台，采用高度模块化设计：

flowchart TD N0["Keystone（身份认证）──"] N1["所有组件的统一鉴权入口（Token-based）"] N0 --> N1 N2["Nova（计算） ──"] N3["管理 VM 生命周期（底层调用 libvirt/KVM/VMware）"] N2 --> N3 N4["Neutron（网络） ──"] N5["SDN 网络管理（VPC/子网/路由/安全组/VXLAN）"] N4 --> N5 N6["Cinder（块存储） ──"] N7["云硬盘管理（对接 Ceph RBD/iSCSI/NFS 等后端）"] N6 --> N7 N8["Swift（对象存储） ──"] N9["类 S3 的分布式对象存储"] N8 --> N9 N10["Glance（镜像） ──"] N11["虚拟机镜像仓库（qcow2/raw/vmdk 格式）"] N10 --> N11 N12["Horizon（Dashboard） ──"] N13["Web 控制台"] N12 --> N13 N14["Heat（编排） ──"] N15["类 CloudFormation 的资源编排模板（YAML）"] N14 --> N15 N16["Placement ──"] N17["资源追踪与调度前置过滤（Nova Scheduler 的决策依据）"] N16 --> N17

Nova 调度流程（简化）：创建 VM 请求 → Keystone 鉴权 → Nova API 接收 → Nova Conductor → Nova Scheduler（通过 Placement 服务过滤满足条件的计算节点，再按权重打分选出最优节点）→ Nova Compute（在目标节点调用 libvirt 创建 VM）→ Neutron 配置虚拟网卡 → Cinder 挂载云硬盘。

商业私有云方案：VMware vSphere + vSAN + NSX（企业市场占有率最高，2023 年被 Broadcom 收购）、华为 FusionSphere（国内政企市场份额较大）。

私有云的 TCO 分析#

私有云并非”免费”，TCO 包括：硬件采购（服务器/网络/机柜）、数据中心成本（电力/冷却/场地）、软件许可（VMware 等商业方案）、人力成本（专职云平台运维工程师）。一般认为，低于数百台服务器规模时，私有云 TCO 很难优于公有云；超过这个规模，私有云才开始具备成本竞争力。

典型用户：政府机关（数据不出境要求）、军队、大型银行（监管要求数据本地存储）、电信运营商。

7.3 混合云（Hybrid Cloud）#

NIST 定义：两种或多种云部署模型（私有、社区或公有云）的组合，各部分保持独立实体，通过标准化技术连接，实现数据和应用的可移植性。

连通性技术#

方式	带宽	延迟	可靠性	适用场景
IPSec VPN	受限于公网	较高且抖动	中	非关键链路、低成本备份
专线（Direct Connect/高速通道）	10Gbps/100Gbps	低且稳定可预测	高	生产核心链路

现代混合云：Outposts 与 Azure Arc#

AWS Outposts：AWS 将自家 Nitro 服务器机架直接部署到客户数据中心，客户获得与 AWS 公有云完全一致的 API 和服务体验，数据物理存储在本地，解决”需要公有云能力但数据不能出本地”的合规需求。

Azure Arc：将 Azure 管理面（ARM）延伸到任何地方，包括客户本地服务器、AWS/GCP 的虚拟机、边缘设备，都可被 Arc 纳管，统一应用 Azure Policy、RBAC 和监控，而不需要将数据迁移到 Azure。

VMware Cloud on AWS：VMware 在 AWS 物理硬件上运行，用户用熟悉的 VMware 工具管理，同时可无缝访问 AWS 原生服务。这是传统企业 VMware 工作负载迁移上云的最低摩擦路径。

典型混合云应用场景#

flowchart TD N0["互联网流量"] N1["公有云（WAF + CDN + DDoS 防护）"] N0 --> N1 N2["内部服务"] N3["私有云（核心业务逻辑 + 数据库）"] N2 --> N3

根据 Flexera 2024 年《State of the Cloud》报告，87% 的受访企业采用了混合云策略（来源：Flexera 2024 State of the Cloud Report）。

7.4 多云（Multi-Cloud）#

多云指同时使用两家或以上公有云厂商的服务（区别于”混合云”的公有+私有组合）。

多云的驱动因素#

避免厂商锁定：避免核心业务过度依赖单一厂商
能力互补：AWS 的 AI/ML 生态 + Azure 的 Office 365 深度集成 + GCP 的 BigQuery 分析能力
监管合规：部分行业/地区要求数据不能集中于单一供应商
价格谈判筹码：多云采购可在厂商间议价

数据引力（Data Gravity）：多云最难解决的问题#

一旦数据大规模存储在某家云上，应用和服务就会围绕数据聚集，因为跨云传输数据成本高（出流量费通常 $0.02~$0.09/GB）且延迟大，形成实质性粘性。这是多云架构在理论上美好但实践中困难的根本原因。

Caution

多云并不等于”将所有功能都复制到两家云”，这样会成倍增加运维复杂度。更务实的策略是：核心业务选定一家主云，特定场景（如 AI 推理、数据分析）按能力补充另一家云，并用 Terraform 统一管理基础设施，降低迁移摩擦。

多云管理工具链#

工具	类型	功能
Terraform	IaC	声明式管理多家云的基础设施资源，事实标准
Crossplane	K8s-native IaC	用 K8s CRD 管理云资源，GitOps 友好
Google Anthos	多云管理平台	跨 GCP/AWS/Azure/私有云统一管理 K8s 工作负载
Azure Arc	多云管理平台	将 Azure 管理延伸到其他云和本地
CloudHealth / Apptio	FinOps 工具	跨云成本可视化与优化

7.5 社区云（Community Cloud）#

NIST 定义：云基础设施由有共同利益（如使命、安全要求、政策或合规考虑）的特定组织社区共享，由这些组织或第三方管理，可部署在本地或远程。

社区云是最容易被遗忘的 NIST 部署模型，但在特定行业中极为重要：

政务云：供政府机关共享，数据主权和安全标准统一。典型案例：AWS GovCloud（隔离的 AWS 基础设施，符合 FedRAMP High 认证，仅向美国政府及合规承包商开放）、中国各省市的”政务云”
金融行业云：满足 PCI-DSS、Basel III 等金融监管合规要求的专属平台
医疗行业云：满足 HIPAA（美国医疗隐私法）或 GDPR 医疗数据要求，如 AWS Healthcare Competency 合作伙伴提供的托管平台
学术/科研云：如美国的 XSEDE（国家超算网络）、中国科技云（CSTCloud）

社区云与私有云的区别在于：私有云服务单一组织，社区云服务有共同利益的一组组织，在他们之间共享基础设施和运维成本。

7.6 主权云（Sovereign Cloud）：新兴的第五种形态#

地缘政治的复杂化使”数据主权”成为各国政府的核心诉求，推动了介于社区云和公有云之间的主权云的兴起：

欧盟 GAIA-X：欧盟主导的数据与云基础设施联盟，旨在减少对美国云厂商的依赖
法国 Bleu 项目：Microsoft 与 Orange/Capgemini 合资，在法国本土运营 Azure 的主权版本，代码和数据不离开法国
中国合规要求：AWS（光环新网）、Azure（世纪互联）须以合资公司形式运营，数据须在境内存储

主权云将重构以美国大厂主导的全球云市场格局，催生大量本地云厂商。

7.7 部署形态选型决策框架#

flowchart TD START([开始选型]) --> Q1{"有数据主权/合规要求？\n（数据不出境、强监管行业）"} Q1 -->|是| R1["私有云 / 社区云\n或含 Outposts 的混合云"] Q1 -->|否| Q2{"规模足够大？\n（>数百台服务器）"} Q2 -->|是，负载稳定| R2["私有云 + 公有云弹性补充\n（混合云）"] Q2 -->|否，规模小或波动大| Q3{"需要避免厂商锁定\n或能力互补？"} Q3 -->|是| R3["多云策略\n（注意数据引力和管理复杂度）"] Q3 -->|否| Q4{"有大量存量 VMware\n等传统基础设施？"} Q4 -->|是| R4["混合云\n（Outposts / Arc / VMware Cloud）\n保护现有投资"] Q4 -->|否| R5["单一公有云\n（运营最简单，快速启动）"]

典型演进路径：起步期全量公有云（快速迭代）→ 规模化后引入私有云处理敏感数据和大规模稳定负载（成本优化）→ 构建混合云实现协同 → 视需求引入第二家公有云（避免锁定或能力互补）。

八、云计算的生态全景#

8.1 全球市场格局#

全球云基础设施市场高度集中。Synergy Research Group 2025 Q3 数据：

厂商	市场份额（2025 Q3）	优势领域
AWS	~29%	产品线最全（300+ 服务）、生态最成熟
Azure	~20%	企业客户、混合云（Arc）、Office 深度集成
GCP	~13%	AI/ML（TPU）、数据分析（BigQuery）、K8s 原生
三家合计	~62%	寡头格局仍在强化

中国市场格局与全球截然不同。Canalys 2025 Q1 数据：阿里云 33%（正加速海外 Region 布局）、华为云 18%（自研昇腾 AI 芯片，政企优势明显）、腾讯云 10%（游戏/音视频/金融），三家合计 61%。字节跳动火山引擎（推荐算法和视频处理技术对外输出）正在追赶。

8.2 云计算产业链全景#

硬件层：CPU/GPU（Intel、AMD、NVIDIA、ARM）、云厂商自研芯片（AWS Graviton/Trainium、阿里倚天 710/含光 800）、服务器（Dell、HPE、浪潮、超微）、网络设备（思科、Arista、华为）、存储硬件（希捷、西数、三星 NVMe SSD）
IaaS 层：计算（EC2、ECS）、分布式存储（S3、OSS、Ceph）、网络（VPC、CDN、专线、SD-WAN）
PaaS 层：容器编排（K8s、EKS、ACK）、数据库（Aurora、PolarDB、Spanner）、消息队列（Kafka、SQS、RocketMQ）、AI/ML 平台（SageMaker、PAI、Vertex AI）、函数计算（Lambda、FC、Cloud Functions）
SaaS 层：业务应用（Salesforce、M365、钉钉、飞书）、行业云（金融云、医疗云、政务云、工业云）、AI 应用（GitHub Copilot、Azure OpenAI Service）
工具链：IaC（Terraform、Pulumi、CDK）、DevOps（GitHub Actions、ArgoCD、Tekton）、可观测性（Prometheus、Grafana、Datadog、OpenTelemetry）、安全（WAF、CSPM、SIEM、零信任 ZTA）、FinOps（Cost Explorer、Infracost、CloudHealth）

九、云计算对行业的影响#

9.1 降低了创业门槛，加速了互联网创新#

云计算出现之前，初创公司上线互联网产品的前期硬件投入可能高达数十万元，采购周期 3~6 个月。云计算让这一切变成”注册账号，5 分钟上线”。Dropbox、Airbnb、Netflix、Spotify、Uber 等独角兽在早期都是 AWS 的重度用户，它们用按需付费的 OpEx 模式替代了前期硬件投资的 CapEx，将有限的资金集中在产品验证上。

9.2 重塑了 IT 部门的角色#

传统 IT 部门的核心工作是”买服务器、维护服务器”。上云后，IT 部门价值转向：

架构设计：如何用云服务构建高可用、可扩展的系统
成本优化（FinOps）：云账单治理，FinOps Foundation（2019 年成立）提供了系统化的实践框架
安全合规：在**责任共担模型（Shared Responsibility Model）**下管理好企业侧的安全边界，云厂商负责”云的安全”（物理基础设施），企业负责”云上的安全”（数据、访问控制、应用安全）
平台工程（Platform Engineering）：为内部开发团队构建标准化的 Internal Developer Platform（IDP）

9.3 推动了软件工程的深层演进#

微服务：云的弹性让细粒度服务拆分成为可能，每个服务独立扩缩容
容器化与 CI/CD：Docker + K8s + GitHub Actions，持续交付成为标配
DevOps 文化：“You build it, you run it” 成为现代工程团队的准则
云原生数据库：Aurora 的计算存储分离、Spanner 的全球一致性事务，突破了传统单机数据库的边界
可观测性（Observability）：OpenTelemetry 标准化了 Metrics/Logs/Traces 三大信号的采集，是云原生时代分布式系统调试的基础

9.4 带来的新挑战#

成本失控：按需计费在缺乏治理时容易出现”云账单爆炸”，FinOps 因此成为独立学科。

安全合规复杂化：GDPR（2018 年）、中国《数据安全法》《个人信息保护法》（2021 年）的实施，使跨境数据流动合规成为全球企业的重大挑战。

厂商锁定：深度依赖专有服务后迁移成本极高，选择基于开放标准（标准 SQL、K8s、OpenTelemetry）是主要应对策略。

系统复杂度上升：数百个微服务的分布式系统，链路追踪和故障定位难度远超单体应用。Service Mesh（Istio/Linkerd）用于标准化微服务间的流量治理、安全和可观测性。

网络延迟瓶颈：工业控制、自动驾驶、实时游戏对延迟的要求（< 1ms）超出了公有云数据中心能力上限，边缘计算（MEC） 是补充方案。

十、展望未来#

10.1 AI 驱动云计算的下一轮增长#

2023 年 ChatGPT 的爆发，彻底改变了云计算的增长逻辑。AI 大模型的训练和推理需要消耗海量 GPU/TPU 算力。Synergy Research Group 估算，2024 年全球 AI 相关云基础设施支出同比增长超过 60%，GenAI 已驱动了云计算增量的一半以上。2025 年美国市场 Q3 增速达 +28%（Synergy），显著高于全球平均，背后正是 Hyperscaler 对 AI 算力的激进资本开支。

云厂商自研 AI 芯片以降低对 NVIDIA 的依赖：AWS Trainium（训练）/ Inferentia（推理）、Google TPU v5p、阿里云含光 800。AI 也在反向改造云本身：AIOps 自动诊断故障、智能 FinOps 预测成本并推荐最优计费方案、GitHub Copilot 等 AI 编码辅助工具大幅提升云上开发效率。

10.2 Serverless 的普及：向”零基础设施感知”演进#

Serverless 是”按需付费”理念的终极形式。AWS SnapStart（基于 Firecracker 内存快照）和 WASM（WebAssembly 运行时，冷启动时间在微秒级）正在系统性解决冷启动问题，使 Serverless 的适用场景从事件驱动扩展到更通用的 Web 服务。

10.3 边缘计算与云边端协同#

MEC（Multi-access Edge Computing，ETSI 标准） 将计算下沉到运营商基站侧，端到端延迟可压缩到 1~~10ms（相比公有云数据中心的 20~~100ms）。“云-边-端”三层协同架构将成为主流：云端负责模型训练与全局决策，边缘节点负责实时推理与本地数据处理，端侧设备（Apple Neural Engine / 高通 AI Engine）承担轻量级推理任务。

10.4 可持续云计算（Green Cloud）#

根据 IEA 2024 年《Electricity 2024》报告，全球数据中心 2023 年电力消耗约 400TWh（约占全球用电量的 1.5%），随 AI 算力需求激增，预计 2026 年翻倍。

各厂商绿色承诺：Google 目标 2030 年实现 7×24 无碳电力（PUE 已降至 1.10，远优于行业平均 1.58）；Microsoft 承诺 2030 年碳负排放；AWS 已于 2023 年宣布运营 100%可再生能源。液冷（浸没式/喷淋式）和 AI 动态调优 PUE 是数据中心节能的主要技术路线。

10.5 主权云：地缘政治重塑云市场格局#

欧盟 GAIA-X、法国 Bleu 项目、中国合规要求（AWS/Azure 须以合资公司形式运营，数据境内存储）代表了主权云的三种模式：联盟自建、本地合资运营、强制本地化。这一趋势将重构以美国大厂主导的全球云市场，催生大量本地云厂商和新的合规工程需求。

结语#

回到开头的问题：云计算到底是什么？

这篇文章从历史、技术、商业、服务模型、部署形态五个维度展开，但答案可以浓缩为一句话：云计算是通过软件手段，将物理硬件资源池化，并以标准化、弹性化的方式按需分配给用户的技术体系。 这句话里的每个词（软件手段、资源池化、标准化、弹性化、按需分配）都对应着具体的技术实现：虚拟化、SDN、IaC、Auto Scaling、按量计费。

理解这些技术实现，比记住 IaaS/PaaS/SaaS 的定义更重要。定义会过时，Serverless 和 AIaaS 已经模糊了 PaaS 和 SaaS 的边界，但”谁管理什么、谁为弹性买单、谁承担锁定风险”这三个问题，在任何时代都是架构选型的核心考量。

参考资料#

NIST SP 800-145: The NIST Definition of Cloud Computing - Mell & Grance, 2011, 云计算的权威定义
OCI (Open Container Initiative) 规范 - 容器镜像格式和运行时接口的开放标准
CNCF Cloud Native Definition - 云原生的官方定义
ETSI MEC: Multi-access Edge Computing - 边缘计算的 ETSI 标准规范
Linux Kernel Documentation: Control Groups v2 - cgroups v2 官方文档
Kubernetes Documentation - 容器编排的官方文档
OpenStack Documentation - 开源云计算平台文档
Synergy Research Group: Cloud Market Reports - 全球云基础设施市场数据
Gartner: Worldwide IaaS Public Cloud Services - 全球 IaaS 市场数据