在云计算 PaaS 平台工作的三年里,我从入职初期的高强度 Linux 实践起步,逐步深入自研体系的构建:虚拟机代理、监控系统、应用网关、存储组件……从底层基础组件的开发,到 PaaS 平台的落地交付,再到出差驻场协助客户搭建部署、完成上云迁移。然而,忙碌之余我却始终有一种隐隐的困惑——我做的这一切,究竟是「云计算」的哪一部分?云计算,到底是什么?
带着这个问题,我开始系统地自学。我注册了各个互联网云厂商的账号,亲手体验产品;翻阅技术博客,拆解 IaaS 的底层架构;研究 PaaS 的调度机制,感受 SaaS 的集成逻辑。工作实践与主动探索两条线并行推进,才让我逐渐建立起对云计算真正属于自己的理解。
这篇文章,我想尽量多视角、多维度地回答这个问题:
- 云计算的历史:它从哪里来,为什么会出现?
- 云计算的技术本质:虚拟化、软件定义、弹性伸缩背后究竟是什么?
- 资源调度与隔离的底层机制:cgroups、namespace、Hypervisor 如何实现租户隔离?
- 虚拟机时代 vs 容器时代:两个范式的本质区别是什么?
- 云计算的商业逻辑:NIST 官方定义、CapEx 转 OpEx、计费模型是什么?
- 云计算的服务模型:IaaS/PaaS/SaaS/FaaS 的边界、技术实现与选型指导
- 云计算的部署形态:公有云、私有云、混合云、多云的架构差异与决策框架
- 云计算的生态全景:主要玩家、市场格局、产业链是怎样的?
- 云计算对行业的影响:它改变了什么,又带来了哪些新问题?
- 云计算的未来:下一个十年,云会走向何方?
一、云计算小传:从萌芽到壮大
1.1 远古时代:计算资源的稀缺与共享
要理解云计算的起源,得先回到计算资源极度稀缺的年代。
1960年代,一台 IBM System/360 大型主机造价高达数百万美元,只有大型企业和科研机构才能负担。为了最大化利用这些昂贵的机器,分时系统(Time-Sharing System) 应运而生。MIT 的 CTSS(Compatible Time-Sharing System,1961年)和 Multics(1969年)是早期代表。多个用户通过哑终端轮流使用同一台主机,每人”租用”一段计算时间。这其实已经有了云计算的影子:资源池化、按需分配、多租户共享。
计算机科学先驱 John McCarthy 在1961年麻省理工学院百周年庆典上预言:“计算将来某天可以像电话一样,成为一种公共设施(utility)。” 这句话,比云计算的真正到来早了整整四十年。
1.2 个人电脑时代:计算资源的分散与浪费
1980—90年代,个人电脑(PC)的普及让计算资源”飞入寻常百姓家”。但随之而来的是新的问题:每个企业都要自建 IT 基础设施。IDC 时代物理服务器的平均利用率通常只有 5%~15%(数据来源:McKinsey & Company,2009年报告 Clearing the Air on Cloud Computing),大量计算资源在闲置状态中白白消耗电力。一旦业务高峰来临,提前三到六个月采购的服务器往往还没到货,业务已经扛不住了。这种成本高、效率低、响应慢的模式,是云计算要解决的根本矛盾。
1.3 虚拟化革命:云计算的技术基础
进入 2000 年代,服务器虚拟化技术逐渐成熟,这成为现代云计算的重要技术基础。
虚拟化技术允许在一台物理服务器上运行多个虚拟机,每个虚拟机拥有独立的操作系统和资源,从而显著提高硬件利用率。以 VMware 为代表的企业推动了商用虚拟化技术的发展,而开源虚拟化项目 Xen 和 Kernel-based Virtual Machine(KVM)则在互联网公司中得到广泛应用。
通过虚拟化,数据中心可以将计算资源抽象为统一的资源池,并根据需求动态分配计算能力。这一能力成为后来 弹性计算(Elastic Computing) 的技术基础。
1.4 互联网浪潮:催生云计算的土壤
1990年代末到2000年代初,互联网泡沫催生了大量互联网公司,这些公司有一个共同特点:流量波动极大,难以预测。一家电商网站,平日访问量可能只有高峰期的十分之一,但为了应对高峰,不得不按峰值配置服务器。泡沫破裂后,大量服务器被闲置,这反而成了云计算的起点。
Amazon 就是在这个背景下走向云计算的。2002年,Amazon 内部推行了著名的”API Mandate”(API 强制令),要求:
- 所有团队必须通过标准化 API 暴露能力;
- 不允许直接访问内部服务;
- 违反规定者,一律开除。
这一改革迫使 Amazon 将内部服务模块化、平台化,为后来的云平台奠定了架构基础。2006 年,Amazon 正式推出 Amazon Simple Storage Service(S3) 和 Amazon Elastic Compute Cloud(EC2),允许开发者通过互联网租用存储和计算资源。现代云计算由此正式进入商业化阶段。
1.5 云计算的爆发:2006—2016
Amazon Web Services (AWS) 的成功很快引发了整个行业的跟进:
- 2008年:Google 推出 App Engine(PaaS 的早期形态)
- 2010年:Microsoft 推出 Azure
- 2010年:OpenStack Foundation 推动的 OpenStack 开源项目启动,使企业能够构建自己的私有云
- 2011年:美国国家标准与技术研究院(NIST)发布云计算定义标准 SP 800-145,明确了云计算的五个核心特征:
- 按需自助服务
- 广泛网络访问
- 资源池化
- 快速弹性扩展
- 可计量服务
- 2013年:Docker 开源,容器技术进入主流视野
- 2014年:Google 开源 Kubernetes,容器编排格局从此确立
- 2015年:CNCF(云原生计算基金会)由 Linux 基金会成立,K8s 成为首个托管项目
这十年间,云计算从”新鲜事物”变成了”行业共识”,从技术创新逐渐演变为社会基础设施。
1.6 云原生时代:2016年至今
2016年后,云计算进入 云原生(Cloud Native) 时代。与此同时,新的开发模式也开始出现。例如 2014 年 Amazon 推出的 AWS Lambda,使开发者可以直接运行代码而无需管理服务器,这种模式被称为 Serverless。
在云原生架构中:
- 微服务取代单体应用
- 容器成为标准部署单元
- DevOps 和 GitOps 促进持续交付
- 基础设施逐渐完全自动化
云计算从一种基础设施选择,逐渐演变为现代软件系统的默认运行环境。
根据 Synergy Research Group 的数据统计,全球云基础设施服务市场规模已经从 2016 年的约 500 亿美元增长到 2024 年的约 3300 亿美元,成为数字经济最重要的基础设施之一。
二、云计算的技术本质
云计算是通过软件手段,将物理硬件资源池化,并以标准化、弹性化的方式按需分配给用户的技术体系。
这句话里有五个关键词:软件手段、资源池化、标准化、弹性化、按需分配。
2.1 虚拟化:云计算的地基
虚拟化(Virtualization) 解决的核心问题是:如何让一台物理机同时运行多个相互隔离的操作系统,并将资源利用率从 5%~15% 提升到 65% 以上?
硬件虚拟化:Intel VT-x 与 AMD-V
早期软件虚拟化需要用”二进制翻译(Binary Translation)“拦截特权指令,性能损耗极大。2005—2006年,Intel 和 AMD 分别推出 VT-x 和 AMD-V 硬件扩展,引入新的 CPU 运行模式:
- VMX Root Mode(宿主模式):Hypervisor 运行于此,拥有最高权限
- VMX Non-Root Mode(客户模式):Guest OS 运行于此,执行特权指令时自动触发 VM Exit 陷入 Hypervisor,处理完成后 VM Entry 返回
Intel EPT(Extended Page Tables) 和 AMD NPT(Nested Page Tables) 进一步在硬件层实现了内存地址转换(Guest Physical Address → Host Physical Address),消除了软件 Shadow Page Table 的巨大开销。
Hypervisor 类型与主流实现
KVM(Kernel-based Virtual Machine) 自 Linux 2.6.20(2007年)合入内核主线,将 Linux 内核本身变为 Hypervisor;QEMU 负责设备模拟(网卡、磁盘控制器等)。AWS Nitro、阿里云神龙架构的底层均基于 KVM 演化而来,是当今最广泛部署的开源虚拟化方案。
存储虚拟化:分布式存储系统
云硬盘不是你专属的某块物理磁盘,而是分布式存储系统抽象出来的逻辑卷。一块 500GB 的云硬盘实际上可能分散在数十台物理服务器上,通常采用**三副本(3 replicas)或纠删码(Erasure Code,EC)**保障可靠性——EC 在相同可靠性下存储开销更低(如 EC 8+3 仅需 1.375 倍空间,而三副本需要 3 倍)。代表技术:Ceph(支持块存储 RBD、对象存储 RGW、文件存储 CephFS 三合一)以及各云厂商自研系统(如 AWS EBS 背后的 NVMe-oF 网络块存储架构)。
网络虚拟化:SDN 与 VXLAN
软件定义网络(SDN) 将控制平面与数据平面分离。云上 VPC 隔离的核心技术是 VXLAN(Virtual eXtensible LAN,IETF RFC 7348):
VXLAN 数据包结构:┌──────────────────────────────────────────────────────────┐│ Outer Ethernet Header(物理网络 MAC) ││ Outer IP Header(物理服务器 IP,VTEP 地址) ││ UDP Header(目标端口 4789) ││ VXLAN Header(含 24-bit VNI,支持 ~1,677 万个隔离网络) ││ Inner Ethernet Header(虚拟网络内 MAC) ││ Inner IP/Payload(VM/容器的实际通信数据) │└──────────────────────────────────────────────────────────┘VNI(VXLAN Network Identifier) 为 24 位,支持约 1,600 万个隔离虚拟网络,远超传统 VLAN 的 4096 个限制。不同租户分配不同 VNI,物理网络上流转的始终是封装后的外层包,租户间天然隔离。数据平面通常由 OVS(Open vSwitch) 实现,控制平面由 OpenStack Neutron 或 K8s CNI 插件(Calico/Cilium/Flannel)下发流表规则。Cilium 基于 Linux eBPF 将网络策略直接注入内核,是目前性能最佳的 CNI 方案之一。
2.2 软件定义:用代码管理一切
基础设施即代码(IaC,Infrastructure as Code) 是云计算最深刻的工程变革之一:把原来由人工操作完成的基础设施配置,全部变成可版本化、可审计、可重复执行的代码。
# Terraform 声明一台 AWS 云服务器(示例)resource "aws_instance" "web_server" { ami = "ami-0c55b159cbfafe1f0" instance_type = "t3.medium" subnet_id = aws_subnet.public.id
tags = { Name = "ProductionWebServer" Environment = "prod" }}这段代码可以在任何时候被执行,在全球任何 AWS Region 创建出完全一致的服务器。传统运维需要数天的工作,云上只需数十秒。
IaC 的核心价值:可重复性(消除”在我机器上能跑”)、版本管理(基础设施变更可被 Git 追踪回滚)、自动化(与 CI/CD 集成,无需人工介入)、审计性(每次变更有记录,满足合规要求)。
主流 IaC 工具:Terraform(HashiCorp,声明式,多云支持,事实标准)、Pulumi(支持 Python/TypeScript 等通用语言)、AWS CloudFormation / 阿里云 ROS(各厂商原生方案)。
2.3 弹性伸缩:云计算的灵魂
弹性(Elasticity) 是云计算区别于传统 IDC 最本质的特征——资源可以随业务负载动态扩缩,用完即还,不再为”可能到来的高峰”常年维护一批闲置服务器。
弹性的两个维度
| 维度 | 说明 | 适用场景 |
|---|---|---|
| 水平扩展(Scale Out/In) | 增减实例数量 | 无状态服务(Web 服务器、API 网关) |
| 垂直扩展(Scale Up/Down) | 升降单实例规格(CPU/内存) | 有状态服务(数据库),但有上限且需重启 |
Auto Scaling 的实现原理(以 AWS ASG 为例)
ASG(Auto Scaling Group)通过监控指标,自动调整实例数量,核心流程如下:
ASG 支持多种伸缩策略:目标追踪(Target Tracking)——维持指标在目标值附近(如 CPU 使用率保持 60%),最简单常用;步进伸缩(Step Scaling)——按指标偏离幅度分级扩缩;预置伸缩(Scheduled Scaling)——针对可预测的流量高峰(如整点秒杀)提前扩容。
Kubernetes 的弹性伸缩更细粒度,分三层:
- HPA(Horizontal Pod Autoscaler):根据 CPU/内存或自定义指标自动调整 Pod 副本数
- VPA(Vertical Pod Autoscaler):自动调整单个 Pod 的 resource requests/limits
- CA(Cluster Autoscaler):当 Pod 因资源不足无法调度时,自动向云厂商 API 申请新 Worker Node 加入集群
弹性的商业意义:CapEx → OpEx
| 模式 | 支出类型 | 特点 |
|---|---|---|
| 传统 IDC | CapEx(资本性支出) | 提前按峰值购买服务器,折旧周期3 |
| 云计算 | OpEx(运营性支出) | 按实际使用量付费,随时扩缩,无最低消费(按需实例),不占用资产负债表 |
这对初创公司尤为重要——它们不需要在 B 轮融资前就锁定数百万的硬件采购,可以将资金集中投入产品研发。
三、资源隔离的底层机制:多租户如何”老死不相往来”
不同用户的工作负载运行在同一批物理机上,凭什么互不干扰?这是云计算技术中最关键也最容易被忽略的部分。
3.1 虚拟机时代:硬件级强隔离
虚拟机依赖 Intel VT-x/AMD-V 实现真正意义上的硬件级隔离:
- CPU 隔离:VM Exit 机制确保 Guest OS 的特权指令不能直接影响 Hypervisor 和其他 VM;CPU Pinning 可将 vCPU 绑定到特定 pCPU,消除调度抖动,适合延迟敏感型负载
- 内存隔离:EPT/NPT 为每个 VM 提供完全独立的物理地址空间,VM 无法访问其他 VM 的内存页;KSM(Kernel Samepage Merging)在宿主机层面合并相同内容的内存页,节省物理内存
- 设备隔离:所有 I/O 请求经 Hypervisor 仲裁;高性能场景下使用 SR-IOV(Single Root I/O Virtualization) 让 VM 直接访问物理网卡的虚拟功能(VF),绕过软件模拟层
- 安全边界:即使 Guest OS 内核被攻破,攻击者仍被 Hypervisor 的硬件边界阻挡(除非存在极罕见的 VM 逃逸漏洞)
vCPU 调度原理:vCPU 本质上是宿主机上的一个 POSIX 线程,由宿主机 Linux 的 CFS(Completely Fair Scheduler)调度到物理 CPU 核上执行。云厂商通常对 vCPU 进行超卖(Overcommit)——分配给所有 VM 的 vCPU 总数超过物理 pCPU 数量,依赖统计复用降低成本。同时,内存气球(Memory Ballooning) 技术允许宿主机在内存紧张时通知 VM 内的 Balloon Driver 归还闲置内存页。
3.2 容器时代:内核级软隔离
容器不是虚拟机,它与宿主机共享同一个 Linux 内核。隔离和资源限制依赖两个 Linux 内核特性:Namespace 和 cgroups。
Linux Namespace:隔离”看到什么”
Namespace 让每个容器拥有独立的系统视图(来源:man 7 namespaces,Linux Kernel Documentation):
| Namespace | 内核版本引入 | 隔离的资源 |
|---|---|---|
| Mount | 2.4.19 (2002) | 文件系统挂载点,容器有独立根文件系统 |
| UTS | 2.6.19 (2006) | 主机名(hostname)和 NIS 域名 |
| IPC | 2.6.19 (2006) | System V IPC、POSIX 消息队列 |
| Network | 2.6.24 (2008) | 网络接口、路由表、防火墙规则、Socket |
| PID | 3.8 (2013) | 进程 ID 空间,容器内的 PID 1 与宿主机无关 |
| User | 3.8 (2013) | 用户/组 ID,容器内 root 可映射为宿主机普通用户 |
| Cgroup | 4.6 (2016) | cgroup 视图,防止容器探测宿主机 cgroup 结构 |
| Time | 5.6 (2020) | 系统时钟偏移,容器可有独立时钟 |
创建容器本质上就是在 clone() 系统调用时设置上述 Namespace 标志位,进程进入新的隔离视图。
Linux cgroups:限制”能用多少”
cgroups(Control Groups) 由 Google 工程师 Paul Menage 和 Rohit Seth 开发,2008年合入 Linux 2.6.24,负责对进程组的资源使用进行计量(accounting)、限制(limiting)和控制(control)。
# ── cgroups v1 示例(/sys/fs/cgroup/ 下)──────────────────────
# CPU 限制:每 100ms 调度周期内最多使用 50ms(相当于 0.5 核)echo 100000 > /sys/fs/cgroup/cpu/mycontainer/cpu.cfs_period_usecho 50000 > /sys/fs/cgroup/cpu/mycontainer/cpu.cfs_quota_us
# 内存限制:最多使用 512MB(超出触发 OOM Kill)echo 536870912 > /sys/fs/cgroup/memory/mycontainer/memory.limit_in_bytes
# 磁盘 I/O 限制:对 sda(8:0)写入速度限制为 10MB/secho "8:0 10485760" > /sys/fs/cgroup/blkio/mycontainer/blkio.throttle.write_bps_devicecgroups v2(统一层级,Linux 4.5+,RHEL 9 / Ubuntu 22.04 等现代发行版已默认启用)引入了更清晰的模型:cpu.weight(替代 v1 的 cpu.shares,基于权重的 CPU 时间分配)、memory.oom.group(OOM 时整组一起被杀,避免状态不一致)。Kubernetes 从 1.25 版本开始正式完整支持 cgroups v2。
关键结论:Namespace 隔离”视图”(进程看到什么),cgroups 限制”资源量”(进程能用多少),但内核本身是共享的。若内核存在漏洞(如 Dirty COW CVE-2016-5195、runc 逃逸漏洞 CVE-2019-5736),攻击者有可能从容器逃逸到宿主机。这是容器隔离相对 VM 更弱的根本原因,也是金融、政务等安全敏感场景仍以 VM 作为租户边界的原因。
四、虚拟机时代 vs 容器时代
理解这两个范式的本质差异,是理解整个云原生演进的关键。
4.1 本质差异全景对比
| 维度 | 虚拟机(VM) | 容器(Container) |
|---|---|---|
| 内核 | 每个 VM 有独立 OS 内核 | 共享宿主机内核 |
| 隔离机制 | 硬件虚拟化(VT-x)+ Hypervisor | Linux Namespace + cgroups |
| 隔离强度 | 强(硬件级边界) | 较弱(内核级,共享内核) |
| 镜像大小 | GB 级(含完整 OS) | MB 级(仅应用 + 依赖库) |
| 启动时间 | 秒~分钟级 | 毫秒~秒级 |
| 资源密度 | 单物理机部署数十个 VM | 单物理机可运行数百个容器 |
| 性能损耗 | 5%~10%(硬件辅助后) | <1%(接近原生,但共享内核可能有竞争) |
| 可移植性 | 镜像大,跨平台迁移慢 | OCI 标准化镜像,跨环境一致 |
| 状态管理 | 天然有状态,磁盘持久化 | 设计上无状态,数据用外挂 Volume |
| 典型场景 | 多租户强隔离、Windows 负载、传统应用 | 微服务、CI/CD、高密度无状态服务 |
4.2 Docker 带来的范式转变
Docker(2013年) 的最大贡献不是技术本身(Namespace 和 cgroups 早已存在),而是把这些技术整合成了工程师友好的工作流:
- 分层镜像(Layered Image):基于 OverlayFS,每一层只存储变更内容,多个镜像共享相同基础层,节省磁盘和传输带宽
- Dockerfile:声明式代码描述镜像构建,镜像可版本化、可复现
- Registry:Docker Hub 等镜像仓库让分发像 Git push/pull 一样简单
- OCI 标准:Docker 推动 OCI(Open Container Initiative)规范统一容器镜像格式(Image Spec)和运行时接口(Runtime Spec),使 containerd、CRI-O 等运行时百花齐放
容器 ≠ 银弹:容器不擅长有状态服务(数据库的 Persistent Volume 性能弱于裸 VM),也不适合强安全隔离。这催生了 gVisor(Google,用户态内核沙箱)和 Kata Containers(轻量级 VM 封装容器)等”安全容器”方案,兼顾容器的轻量和 VM 的隔离性。
4.3 Kubernetes:容器时代的操作系统
Kubernetes(K8s)解决的是:如何在集群中编排成千上万个容器?
kube-scheduler 两阶段调度(来源:Kubernetes 官方文档 Scheduling Framework):
- 阶段一:过滤(Filtering):找出所有能运行该 Pod 的 Node,排除不满足 resource requests、Taint/Toleration、亲和性规则等约束的节点
- 阶段二:打分(Scoring):对候选节点打分,默认策略包括:
LeastAllocated(优先资源使用率低的节点,均衡负载)、MostAllocated(优先资源使用率高的节点,Bin Packing 提升装箱密度)、NodeAffinity、InterPodAffinity
资源 Requests/Limits 与 cgroups 的映射:
resources: requests: cpu: "500m" # 调度依据:Node 上已分配 requests 之和不超过节点容量 memory: "256Mi" limits: cpu: "1000m" # → cgroups cpu.cfs_quota_us(运行时 CPU 上限) memory: "512Mi" # → cgroups memory.limit_in_bytes(超出触发 OOM Kill)由此衍生出三种 Pod QoS 等级(决定内存压力时 OOM Kill 的优先顺序):
| QoS | 条件 | OOM 优先级 |
|---|---|---|
| Guaranteed | requests == limits(CPU + 内存均如此) | 最后被 Kill |
| Burstable | requests < limits | 中间 |
| BestEffort | 未设置 requests/limits | 最先被 Kill |
五、云计算的商业逻辑
5.1 NIST 标准定义
2011年,美国国家标准与技术研究院(NIST)发布 Special Publication 800-145《The NIST Definition of Cloud Computing》,给出了迄今最权威的定义:
Cloud computing is a model for enabling ubiquitous, convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction.
——NIST SP 800-145, P. Mell & T. Grance, September 2011
NIST 定义了五个基本特征(Essential Characteristics):
- 按需自助服务(On-demand Self-service):用户无需人工介入,可自助开通/关闭资源
- 广泛的网络访问(Broad Network Access):通过标准网络协议,可从电脑、手机等多种终端访问
- 资源池化(Resource Pooling):多租户共享动态分配的资源池,用户通常不关心资源的物理位置
- 快速弹性(Rapid Elasticity):资源可快速弹性扩缩,对用户来说资源似乎”无限可用”
- 可度量的服务(Measured Service):资源使用可监控、控制和报告,支持按量计费
NIST 同时定义了 3 种服务模型(SaaS/PaaS/IaaS)和 4 种部署模型(公有云/私有云/混合云/社区云),这是第六章和第七章完整展开的依据。
5.2 云计算的计费体系:按用付费的多种形态
理解云的商业逻辑,必须理解其计费体系。以 AWS EC2 为例(来源:AWS EC2 Pricing 官方文档):
| 计费类型 | 折扣 | 承诺 | 典型场景 |
|---|---|---|---|
| 按需实例(On-Demand) | 原价,按秒/小时 | 无承诺,随时启停 | 短期、不可预测的工作负载 |
| 预留实例(Reserved,1年/3年) | 节省 40%~72% | 承诺使用期限,预付部分/全部费用 | 稳定运行的生产工作负载 |
| Savings Plans | 与预留实例相近 | 承诺每小时最低消费($X/hr),更灵活 | 多种实例类型混用时更优 |
| 竞价实例(Spot) | 节省最高 90% | 无承诺,AWS 可随时中断(提前 2 分钟通知) | 批处理、大数据、容错型负载 |
| 专用主机(Dedicated Host) | 最贵,按物理主机计费 | 独占物理服务器,可 BYOL | 软件 License 绑定物理核心的场景 |
工程实践:混合使用按需实例(保底基线)+ Savings Plans(稳定负载)+ Spot 实例(弹性峰值),可在保证可用性前提下将计算成本降低 50%~70%。
5.3 云计算的规模经济:为什么云厂商有成本优势?
云厂商的成本优势来自三个叠加因素:
- 规模采购:AWS 每年采购数百万台服务器,单台硬件成本远低于普通企业
- 资源复用:虚拟化超卖让物理资源利用率从企业自建的 5%~15% 提升到 60%~80%
- 运维自动化:数据中心自动化程度极高,数千台服务器只需少量工程师管理
这三点叠加,让云厂商能以低于企业自建 TCO 的成本提供更高质量的基础设施,这是云计算商业模式成立的根本原因。
六、云计算的服务模型:IaaS、PaaS、SaaS 与新兴 XaaS
NIST SP 800-145 定义了三种服务模型,但云计算发展至今已延伸出更多细分层次。理解这些模型的核心是把握**“谁管理什么”**的边界。
6.1 责任边界总览
自建 IDC IaaS PaaS SaaS──────────────────────────────────────────────────────应用代码 用户 ←─────────────────────→ 云管运行时/框架 用户 ────── 用户 ──────────→ 云管数据库/中间件 用户 ────── 用户 ──── 用户 → 云管操作系统 用户 ────── 用户 ──────────→ 云管虚拟化/容器 用户 ──────────────────────→ 云管物理网络/服务器 用户 ──────────────────────→ 云管数据中心/机房 用户 ──────────────────────→ 云管──────────────────────────────────────────────────────用户管理的层次 7 3~4 1~2 06.2 IaaS(Infrastructure as a Service,基础设施即服务)
IaaS 是”租用虚拟化硬件”——云厂商提供计算、存储、网络的虚拟化资源,用户自管 OS 以上的一切。
计算(Compute):实例类型体系
以 AWS EC2 为例,实例类型针对不同工作负载优化:
| 系列 | 用途 | 典型型号 | 典型场景 |
|---|---|---|---|
| 通用型(M 系列) | CPU/内存均衡 | m7i.xlarge(4C/16G) | Web 服务、小型数据库 |
| 计算优化(C 系列) | 高 CPU | c7g.2xlarge(8C/16G) | 批处理、科学计算、游戏服务器 |
| 内存优化(R/X 系列) | 高内存 | r7i.8xlarge(32C/256G) | Redis、SAP HANA、内存数据库 |
| 存储优化(I 系列) | 高 IOPS NVMe | i4i.2xlarge(8C/64G) | 高性能数据库、Elasticsearch |
| GPU 实例(P/G 系列) | GPU 加速 | p4d.24xlarge(96C/8×A100) | AI 训练/推理、图形渲染 |
| ARM 架构(Graviton) | 高性价比 | c7g.xlarge(AWS 自研 ARM) | 通用 Web/API,性价比高 30%+ |
存储(Storage):三大类型
| 类型 | 典型产品 | 访问方式 | 特点 | 典型场景 |
|---|---|---|---|---|
| 块存储(Block) | AWS EBS、阿里云云盘 | 挂载为块设备(/dev/xvda) | 低延迟,需挂载到实例 | 数据库、OS 系统盘 |
| 对象存储(Object) | AWS S3、阿里云 OSS | HTTP REST API | 海量存储,按容量计费,无需挂载 | 静态文件、备份、数据湖 |
| 文件存储(File) | AWS EFS、阿里云 NAS | NFS/SMB 协议挂载 | 多实例共享访问 | 共享配置、CMS |
网络(Network):VPC 核心组件
IaaS 的适用场景与局限
适合:有技术团队的企业,传统应用”Lift & Shift”直接搬云,需要定制化 OS/内核配置的场景。
局限:用户需要自管 OS 补丁、中间件配置、监控部署等,运维负担较重。大量重复性运维工作推动了 PaaS 的出现。
6.3 PaaS(Platform as a Service,平台即服务)
PaaS 是”租用完整的应用运行平台”——用户只需关注应用代码和业务数据,其余一切由云厂商托管。
传统 PaaS:Heroku 模式
以 Heroku 为例,它向用户屏蔽了:运行时管理(Python/Node.js/Java 运行环境安装)、自动扩缩容(按 HTTP 请求数调整 Dyno 数量)、健康检查与故障恢复、路由与负载均衡、日志聚合。
Heroku 的 Buildpack 机制是经典设计:git push heroku main 后,Heroku 自动检测语言,使用对应 Buildpack 构建可运行 Slug,完成部署——开发者甚至不需要写 Dockerfile。
托管数据库(DBaaS):最成熟的 PaaS 形态
AWS RDS / Aurora / 阿里云 PolarDB 把”安装配置数据库”变成了点击订阅:
| 传统自建 | DBaaS |
|---|---|
| 安装 MySQL,手动调优参数 | 控制台选版本,一键创建,5分钟可用 |
| 手动搭建主从复制 | 自动 Multi-AZ 高可用(同步复制,故障切换 < 60s) |
| 定期手动备份,手动恢复 | 自动全量 + 增量备份,PITR(Point-in-Time Recovery) |
| 停服手动升级补丁 | 自动小版本升级,可配置维护窗口 |
| 停服手动扩容 | 多数支持在线存储扩容或读写分离横向扩展 |
AWS Aurora 的计算存储分离架构值得特别说明:存储层由6个副本分布在3个 AZ,计算层(MySQL/PostgreSQL 兼容)可独立扩缩,读副本延迟通常在 10ms 以内,写性能比社区 MySQL 高约5倍(来源:AWS Aurora 官方白皮书)。
托管 K8s:现代 PaaS 的主流形态
AWS EKS / GKE / Azure AKS / 阿里云 ACK 是目前部署最广泛的 PaaS 形态:云厂商托管 K8s Control Plane(API Server、etcd、Scheduler、Controller Manager),用户只需关注 Data Plane(Worker Node 上的业务 Pod)。
PaaS 的核心权衡:便利性 vs 灵活性 vs 锁定风险
| 维度 | 通用 PaaS(Heroku) | 托管 K8s(EKS/GKE) | 自建 K8s |
|---|---|---|---|
| 运维复杂度 | 极低 | 中 | 高 |
| 灵活性 | 低(Buildpack 限制) | 高 | 最高 |
| 厂商锁定风险 | 高 | 中(K8s 跨云可迁移) | 低 |
| 适合规模 | 小型团队/初创 | 中大型团队 | 大型团队/特殊需求 |
锁定风险:深度依赖专有 PaaS API(如 AWS Lambda 触发器模型、Google App Engine 的 Datastore API)后,迁移成本极高。选择基于开放标准的 PaaS(如 K8s 兼容的服务)是降低锁定风险的主要策略。
6.4 SaaS(Software as a Service,软件即服务)
SaaS 是”租用完整软件应用”——用户直接使用,无需关心任何基础设施,通常按用户数/功能模块订阅。
SaaS 的多租户数据隔离架构
SaaS 最核心的工程挑战是多租户数据隔离,三种主流架构模型:
| 模型 | 实现方式 | 隔离强度 | 资源效率 | 典型场景 |
|---|---|---|---|---|
| Silo(筒仓) | 每个租户独立数据库实例 | 最强 | 最低(资源碎片化) | 高安全要求客户(金融/医疗) |
| Bridge(桥接) | 共享数据库实例,每租户独立 Schema | 中 | 中 | 中大型 SaaS |
| Pool(池化) | 共享数据库 + 共享表,tenant_id 列区分 | 较弱(应用层隔离) | 最高 | 长尾小客户为主的 SaaS |
现代 SaaS 通常采用混合策略:高价值大客户使用 Silo(甚至独立部署),长尾小客户使用 Pool,在安全、成本、运维之间取得平衡。
SaaS 的商业模式与核心指标
SaaS 采用**订阅制(Subscription)**计费,核心业务指标:
- MRR/ARR(月/年经常性收入):SaaS 规模的最核心指标
- Churn Rate(流失率):每月/年有多少比例客户或收入流失,是健康度的关键信号
- NRR(净收入留存):同一批客户收入的同比变化,> 100% 表示扩张收入超过流失(优质 SaaS 的重要特征)
- LTV/CAC 比值:客户生命周期价值 / 客户获取成本,> 3 是 SaaS 盈利健康的经验阈值
典型 SaaS 产品:Salesforce(CRM,全球 SaaS 鼻祖,2024财年 ARR 超 350 亿美元)、Microsoft 365、Snowflake(数据仓库 SaaS)、钉钉 / 飞书(中国市场)。
6.5 新兴 XaaS:服务模型的持续演化
| 模型 | 全称 | 核心产品 | 用户关注点 |
|---|---|---|---|
| CaaS | Container as a Service | AWS ECS/Fargate、阿里云 ASK | 容器,无需管 K8s Control Plane |
| FaaS | Function as a Service | AWS Lambda、阿里云 FC | 函数代码,按调用次数计费 |
| DBaaS | Database as a Service | RDS、PolarDB、MongoDB Atlas | SQL/数据,无需管数据库运维 |
| AIaaS | AI as a Service | SageMaker、Azure OpenAI | 模型 API 调用,无需管 GPU 集群 |
| DaaS | Desktop as a Service | AWS WorkSpaces | 虚拟桌面,无需管 VDI 基础设施 |
Serverless(FaaS)详解:Serverless 是”按需付费”理念的极致——代码只在被调用时运行,按执行次数和时长计费(精确到 1ms),无流量时零费用。
# AWS Lambda 函数示例:S3 上传事件触发自动生成缩略图def lambda_handler(event, context): bucket = event['Records'][0]['s3']['bucket']['name'] key = event['Records'][0]['s3']['object']['key'] # 处理图片... return {'statusCode': 200}# 计费:仅在被触发时产生费用(通常 < 1 美分/千次调用)# 无流量时:零费用Serverless 的主要挑战是冷启动延迟(容器初始化通常需要数百毫秒到数秒)。AWS Firecracker(KVM-based 轻量级 microVM,启动时间 < 125ms,内存开销约 5MB)和 SnapStart(2022年,基于 Firecracker 内存快照恢复)是针对性解决方案。
七、云计算的部署形态:从公有云到主权云
NIST SP 800-145 定义了四种部署模型(公有云、私有云、混合云、社区云),实践中又延伸出了多云和主权云。选择部署形态本质上是在成本、弹性、安全、合规、控制权之间寻找平衡。
7.1 公有云(Public Cloud)
NIST 定义:云基础设施由云服务提供商拥有和运营,通过互联网向公众或特定行业开放,资源在多个租户之间共享。
全球基础设施架构:Region → AZ → Edge
AWS 截至2024年在全球拥有 33 个已启用 Region、105 个可用区(来源:AWS Global Infrastructure 官方页面);阿里云在全球有 30+ 个 Region、100+ 个 AZ。
SLA 与高可用策略
| 可用性 | 每年允许停机时间 | 典型保证对象 |
|---|---|---|
| 99.9%(三个九) | 8.7 小时/年 | 单 AZ 部署的基础资源 |
| 99.95% | 4.4 小时/年 | 跨 AZ 的托管服务(RDS Multi-AZ) |
| 99.99%(四个九) | 52 分钟/年 | 跨 AZ 的关键服务(ELB、Route53) |
| 99.999%(五个九) | 5 分钟/年 | 跨 Region 的 Route53 解析 |
灾难恢复(DR)四种策略(来源:AWS Disaster Recovery Whitepaper):
| 策略 | RTO | RPO | 成本 | 说明 |
|---|---|---|---|---|
| 备份与恢复 | 小时级 | 小时级 | 最低 | 定期备份到 S3,灾难时重建 |
| Pilot Light | 分钟~小时 | 分钟级 | 低 | 核心组件常驻小规模,灾难时快速扩大 |
| Warm Standby | 分钟级 | 秒级 | 中 | 冗余环境小规模运行,灾难时扩容接管 |
| Multi-Site Active-Active | 接近零 | 接近零 | 最高 | 多 Region 同时承载流量,任一故障无感切换 |
优点:无前期投资,弹性极好,全球化部署能力强,硬件维护和安全补丁由云厂商负责。
缺点:数据存放第三方,在强监管行业存在合规顾虑;深度使用专有服务存在厂商锁定风险。
7.2 私有云(Private Cloud)
NIST 定义:云基础设施专属于单一组织(可能由该组织或第三方管理),可部署在组织内部或外部数据中心。
私有云 ≠ 传统 IDC
私有云与传统数据中心的根本区别:私有云具备 NIST 定义的五大云计算特征(自助服务、资源池化、弹性、可度量),而传统 IDC 是静态分配的物理机房。私有云是用软件在自有硬件上模拟出”公有云体验”。
OpenStack:开源私有云的事实标准
OpenStack(2010年由 NASA + Rackspace 发起)是构建私有云最广泛使用的开源平台,采用高度模块化设计:
Nova 调度流程(简化):创建 VM 请求 → Keystone 鉴权 → Nova API 接收 → Nova Conductor → Nova Scheduler(通过 Placement 服务过滤满足条件的计算节点,再按权重打分选出最优节点)→ Nova Compute(在目标节点调用 libvirt 创建 VM)→ Neutron 配置虚拟网卡 → Cinder 挂载云硬盘。
商业私有云方案:VMware vSphere + vSAN + NSX(企业市场占有率最高,2023年被 Broadcom 收购)、华为 FusionSphere(国内政企市场份额较大)。
私有云的 TCO 分析
私有云并非”免费”,TCO 包括:硬件采购(服务器/网络/机柜)、数据中心成本(电力/冷却/场地)、软件许可(VMware 等商业方案)、人力成本(专职云平台运维工程师)。一般认为,低于数百台服务器规模时,私有云 TCO 很难优于公有云;超过这个规模,私有云才开始具备成本竞争力。
典型用户:政府机关(数据不出境要求)、军队、大型银行(监管要求数据本地存储)、电信运营商。
7.3 混合云(Hybrid Cloud)
NIST 定义:两种或多种云部署模型(私有、社区或公有云)的组合,各部分保持独立实体,通过标准化技术连接,实现数据和应用的可移植性。
连通性技术
| 方式 | 带宽 | 延迟 | 可靠性 | 适用场景 |
|---|---|---|---|---|
| IPSec VPN | 受限于公网 | 较高且抖动 | 中 | 非关键链路、低成本备份 |
| 专线(Direct Connect/高速通道) | 10Gbps/100Gbps | 低且稳定可预测 | 高 | 生产核心链路 |
现代混合云:Outposts 与 Azure Arc
AWS Outposts:AWS 将自家 Nitro 服务器机架直接部署到客户数据中心,客户获得与 AWS 公有云完全一致的 API 和服务体验,数据物理存储在本地,解决”需要公有云能力但数据不能出本地”的合规需求。
Azure Arc:将 Azure 管理面(ARM)延伸到任何地方——客户本地服务器、AWS/GCP 的虚拟机、边缘设备,都可被 Arc 纳管,统一应用 Azure Policy、RBAC 和监控,而不需要将数据迁移到 Azure。
VMware Cloud on AWS:VMware 在 AWS 物理硬件上运行,用户用熟悉的 VMware 工具管理,同时可无缝访问 AWS 原生服务。这是传统企业 VMware 工作负载迁移上云的最低摩擦路径。
典型混合云应用场景
根据 Flexera 2024年《State of the Cloud》报告,87% 的受访企业采用了混合云策略(来源:Flexera 2024 State of the Cloud Report)。
7.4 多云(Multi-Cloud)
多云指同时使用两家或以上公有云厂商的服务(区别于”混合云”的公有+私有组合)。
多云的驱动因素
- 避免厂商锁定:避免核心业务过度依赖单一厂商
- 能力互补:AWS 的 AI/ML 生态 + Azure 的 Office 365 深度集成 + GCP 的 BigQuery 分析能力
- 监管合规:部分行业/地区要求数据不能集中于单一供应商
- 价格谈判筹码:多云采购可在厂商间议价
数据引力(Data Gravity):多云最难解决的问题
一旦数据大规模存储在某家云上,应用和服务就会围绕数据聚集,因为跨云传输数据成本高(出流量费通常 0.09/GB)且延迟大,形成实质性粘性。这是多云架构在理论上美好但实践中困难的根本原因。
多云并不等于”将所有功能都复制到两家云”,这样会成倍增加运维复杂度。更务实的策略是:核心业务选定一家主云,特定场景(如 AI 推理、数据分析)按能力补充另一家云,并用 Terraform 统一管理基础设施,降低迁移摩擦。
多云管理工具链
| 工具 | 类型 | 功能 |
|---|---|---|
| Terraform | IaC | 声明式管理多家云的基础设施资源,事实标准 |
| Crossplane | K8s-native IaC | 用 K8s CRD 管理云资源,GitOps 友好 |
| Google Anthos | 多云管理平台 | 跨 GCP/AWS/Azure/私有云统一管理 K8s 工作负载 |
| Azure Arc | 多云管理平台 | 将 Azure 管理延伸到其他云和本地 |
| CloudHealth / Apptio | FinOps 工具 | 跨云成本可视化与优化 |
7.5 社区云(Community Cloud)
NIST 定义:云基础设施由有共同利益(如使命、安全要求、政策或合规考虑)的特定组织社区共享,由这些组织或第三方管理,可部署在本地或远程。
社区云是最容易被遗忘的 NIST 部署模型,但在特定行业中极为重要:
- 政务云:供政府机关共享,数据主权和安全标准统一。典型案例:AWS GovCloud(隔离的 AWS 基础设施,符合 FedRAMP High 认证,仅向美国政府及合规承包商开放)、中国各省市的”政务云”
- 金融行业云:满足 PCI-DSS、Basel III 等金融监管合规要求的专属平台
- 医疗行业云:满足 HIPAA(美国医疗隐私法)或 GDPR 医疗数据要求,如 AWS Healthcare Competency 合作伙伴提供的托管平台
- 学术/科研云:如美国的 XSEDE(国家超算网络)、中国科技云(CSTCloud)
社区云与私有云的区别在于:私有云服务单一组织,社区云服务有共同利益的一组组织,在他们之间共享基础设施和运维成本。
7.6 主权云(Sovereign Cloud):新兴的第五种形态
地缘政治的复杂化使”数据主权”成为各国政府的核心诉求,推动了介于社区云和公有云之间的主权云的兴起:
- 欧盟 GAIA-X:欧盟主导的数据与云基础设施联盟,旨在减少对美国云厂商的依赖
- 法国 Bleu 项目:Microsoft 与 Orange/Capgemini 合资,在法国本土运营 Azure 的主权版本,代码和数据不离开法国
- 中国合规要求:AWS(光环新网)、Azure(世纪互联)须以合资公司形式运营,数据须在境内存储
主权云将重构以美国大厂主导的全球云市场格局,催生大量本地云厂商。
7.7 部署形态选型决策框架
典型演进路径:起步期全量公有云(快速迭代)→ 规模化后引入私有云处理敏感数据和大规模稳定负载(成本优化)→ 构建混合云实现协同 → 视需求引入第二家公有云(避免锁定或能力互补)。
八、云计算的生态全景
8.1 全球市场格局
根据 Synergy Research Group 2024年第四季度数据(来源:Q4 2024 Cloud Infrastructure Services Market Report):
| 厂商 | 市场份额(2024年 Q4) | 优势领域 |
|---|---|---|
| AWS | ~31% | 产品线最全(300+ 服务)、生态最成熟 |
| Azure | ~20% | 企业客户、混合云(Arc)、Office 深度集成 |
| GCP | ~12% | AI/ML(TPU)、数据分析(BigQuery)、K8s 原生 |
| 三家合计 | ~63% | 寡头格局仍在强化 |
中国市场(来源:IDC 中国公有云服务市场2024年数据):阿里云约 33%(国际化布局积极)、华为云(自研昇腾 AI 芯片,政企优势明显)、腾讯云(游戏/音视频/金融)、字节跳动火山引擎(推荐算法和视频处理技术对外输出)。
8.2 云计算产业链全景
硬件层 CPU/GPU(Intel、AMD、NVIDIA、ARM) 云厂商自研芯片(AWS Graviton/Trainium、阿里倚天 710/含光 800) 服务器(Dell、HPE、浪潮、超微) 网络设备(思科、Arista、华为) 存储硬件(希捷、西数、三星 NVMe SSD)
IaaS 层 计算(EC2、ECS) 分布式存储(S3、OSS、Ceph) 网络(VPC、CDN、专线、SD-WAN)
PaaS 层 容器编排(K8s、EKS、ACK) 数据库(Aurora、PolarDB、Spanner) 消息队列(Kafka、SQS、RocketMQ) AI/ML 平台(SageMaker、PAI、Vertex AI) 函数计算(Lambda、FC、Cloud Functions)
SaaS 层 业务应用(Salesforce、M365、钉钉、飞书) 行业云(金融云、医疗云、政务云、工业云) AI 应用(GitHub Copilot、Azure OpenAI Service)
工具链 IaC(Terraform、Pulumi、CDK) DevOps(GitHub Actions、ArgoCD、Tekton) 可观测性(Prometheus、Grafana、Datadog、OpenTelemetry) 安全(WAF、CSPM、SIEM、零信任 ZTA) FinOps(Cost Explorer、Infracost、CloudHealth)九、云计算对行业的影响
9.1 降低了创业门槛,加速了互联网创新
云计算出现之前,初创公司上线互联网产品的前期硬件投入可能高达数十万元。云计算让这一切变成”注册账号,5 分钟上线”。Dropbox、Airbnb、Netflix、Spotify、Uber 等独角兽在早期都是 AWS 的重度用户,云计算是过去十年全球互联网创新加速的最重要基础设施之一。
9.2 重塑了 IT 部门的角色
传统 IT 部门的核心工作是”买服务器、维护服务器”。上云后,IT 部门价值转向:
- 架构设计:如何用云服务构建高可用、可扩展的系统
- 成本优化(FinOps):云账单治理,FinOps Foundation(2019年成立)提供了系统化的实践框架
- 安全合规:在**责任共担模型(Shared Responsibility Model)**下管理好企业侧的安全边界——云厂商负责”云的安全”(物理基础设施),企业负责”云上的安全”(数据、访问控制、应用安全)
- 平台工程(Platform Engineering):为内部开发团队构建标准化的 Internal Developer Platform(IDP)
9.3 推动了软件工程的深层演进
- 微服务:云的弹性让细粒度服务拆分成为可能,每个服务独立扩缩容
- 容器化与 CI/CD:Docker + K8s + GitHub Actions,持续交付成为标配
- DevOps 文化:“You build it, you run it” 成为现代工程团队的准则
- 云原生数据库:Aurora 的计算存储分离、Spanner 的全球一致性事务,突破了传统单机数据库的边界
- 可观测性(Observability):OpenTelemetry 标准化了 Metrics/Logs/Traces 三大信号的采集,是云原生时代分布式系统调试的基础
9.4 带来的新挑战
成本失控:按需计费在缺乏治理时容易出现”云账单爆炸”,FinOps 因此成为独立学科。
安全合规复杂化:GDPR(2018年)、中国《数据安全法》《个人信息保护法》(2021年)的落地,使跨境数据流动合规成为全球企业的重大挑战。
厂商锁定:深度依赖专有服务后迁移成本极高,选择基于开放标准(标准 SQL、K8s、OpenTelemetry)是主要应对策略。
系统复杂度上升:数百个微服务的分布式系统,链路追踪和故障定位难度远超单体应用。Service Mesh(Istio/Linkerd)用于标准化微服务间的流量治理、安全和可观测性。
网络延迟瓶颈:工业控制、自动驾驶、实时游戏对延迟的要求(< 1ms)超出了公有云数据中心能力上限,边缘计算(MEC) 是补充方案。
十、展望未来
10.1 AI 驱动云计算的下一轮增长
2023年 ChatGPT 的爆发,彻底改变了云计算的增长逻辑。AI 大模型的训练和推理需要消耗海量 GPU/TPU 算力,据 Synergy Research Group 估算,2024年全球 AI 相关云基础设施支出同比增长超过 60%。
云厂商自研 AI 芯片以降低对 NVIDIA 的依赖:AWS Trainium(训练)/ Inferentia(推理)、Google TPU v5p、阿里云含光 800。AI 也在反向改造云本身:AIOps 自动诊断故障、智能 FinOps 预测成本并推荐最优计费方案、GitHub Copilot 等 AI 编码辅助工具大幅提升云上开发效率。
10.2 Serverless 的普及:向”零基础设施感知”演进
Serverless 是”按需付费”理念的终极形式。AWS SnapStart(基于 Firecracker 内存快照)和 WASM(WebAssembly 运行时,冷启动时间在微秒级)正在系统性解决冷启动问题,使 Serverless 的适用场景从事件驱动扩展到更通用的 Web 服务。
10.3 边缘计算与云边端协同
MEC(Multi-access Edge Computing,ETSI 标准) 将计算下沉到运营商基站侧,端到端延迟可压缩到 110ms(相比公有云数据中心的 20100ms)。“云-边-端”三层协同架构将成为主流:云端负责模型训练与全局决策,边缘节点负责实时推理与本地数据处理,端侧设备(Apple Neural Engine / 高通 AI Engine)承担轻量级推理任务。
10.4 可持续云计算(Green Cloud)
根据 IEA 2024年《Electricity 2024》报告,全球数据中心2023年电力消耗约 400TWh(约占全球用电量的 1.5%),随 AI 算力需求激增,预计2026年翻倍。
各厂商绿色承诺:Google 目标2030年实现7×24 无碳电力(PUE 已降至 1.10,远优于行业平均 1.58);Microsoft 承诺2030年碳负排放;AWS 已于2023年宣布运营100%可再生能源。液冷(浸没式/喷淋式)和 AI 动态调优 PUE 是数据中心节能的主要技术路线。
10.5 主权云:地缘政治重塑云市场格局
欧盟 GAIA-X、法国 Bleu 项目、中国合规要求(AWS/Azure 须以合资公司形式运营,数据境内存储)代表了主权云的三种模式——联盟自建、本地合资运营、强制本地化。这一趋势将重构以美国大厂主导的全球云市场,催生大量本地云厂商和新的合规工程需求。
结语
云计算走过了近二十年,从当年 AWS 推出时被质疑”把数据放到别人的服务器上,这安全吗?“,到今天几乎所有企业都在用云,这场变革已经无可逆转。
云计算的本质,不是”更便宜的服务器”,而是一种新的生产力基础设施。
就像电力出现之前,每家工厂都要自己建发电机;电力网络普及之后,工厂只需要插上插座。云计算对 IT 行业做的,正是这件事——让每家企业都能用上世界级的技术基础设施,而无需自己建设和维护它。
至于云计算的未来,它不会消失,只会变得越来越”隐形”——就像今天的电力一样,你用到它,但你已经不再意识到它的存在。
最好的基础设施,是让人忘记它的存在。
参考资料
标准与权威定义
-
NIST SP 800-145 — The NIST Definition of Cloud Computing P. Mell & T. Grance (2011). 云计算的权威定义,IaaS/PaaS/SaaS 和四种部署模型的原始来源。 https://csrc.nist.gov/publications/detail/sp/800-145/final
-
OCI(Open Container Initiative)规范 容器镜像格式(Image Spec)和运行时接口(Runtime Spec)的开放标准,容器生态互操作性的基础。 https://opencontainers.org/
-
CNCF Cloud Native Definition 云原生计算基金会对”云原生”的官方定义。 https://github.com/cncf/toc/blob/main/DEFINITION.md
-
ETSI MEC — Multi-access Edge Computing 边缘计算的 ETSI 标准规范。 https://www.etsi.org/technologies/multi-access-edge-computing
技术底层
-
Linux Kernel Documentation — Control Groups v2 cgroups v2 官方文档,含 cpu/memory/io/pid 等子系统参数详解。 https://www.kernel.org/doc/html/latest/admin-guide/cgroup-v2.html
-
Linux man-pages — namespaces(7) Linux Namespace 全部类型及 API 的权威手册。 https://man7.org/linux/man-pages/man7/namespaces.7.html
-
Intel® 64 and IA-32 Architectures SDM, Volume 3C — VMX Instructions Intel VT-x 硬件规范,包含 VM Entry/Exit 机制的底层细节。 https://www.intel.com/content/www/us/en/developer/articles/technical/intel-sdm.html
-
RFC 7348 — Virtual eXtensible Local Area Network (VXLAN) VXLAN 协议的 IETF 标准文档,含封包格式和 VNI 机制。 https://datatracker.ietf.org/doc/html/rfc7348
-
Firecracker: Lightweight Virtualization for Serverless Applications(USENIX NSDI 2020) AWS Firecracker 设计论文,microVM 轻量化虚拟化的技术细节。 https://www.usenix.org/conference/nsdi20/presentation/agache
-
Borg, Omega, and Kubernetes(ACM Queue, 2016) Google 工程师回顾三代容器管理系统演进,K8s 设计哲学的必读文章。 https://queue.acm.org/detail.cfm?id=2898444
调度与资源管理
-
Kubernetes 官方文档 — Scheduling, Preemption and Eviction kube-scheduler 的过滤/打分流程、QoS 等级、Pod 优先级官方说明。 https://kubernetes.io/docs/concepts/scheduling-eviction/
-
Kubernetes 官方文档 — Resource Management for Pods and Containers requests/limits 语义及与 cgroups 的映射关系。 https://kubernetes.io/docs/concepts/configuration/manage-resources-containers/
-
Large-scale cluster management at Google with Borg(EuroSys 2015) Google Borg 调度系统论文,Bin Packing 等策略的来源。 https://research.google/pubs/pub43438/
架构与工程实践
-
AWS Well-Architected Framework AWS 官方云架构最佳实践,涵盖可靠性、安全、性能效率、成本优化、卓越运营和可持续性六大支柱。 https://aws.amazon.com/architecture/well-architected/
-
AWS Disaster Recovery Whitepaper 四种 DR 策略(Backup/Pilot Light/Warm Standby/Active-Active)的官方说明,RTO/RPO 数据来源。 https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-options-in-the-cloud.html
-
AWS Aurora Technical Overview 计算存储分离架构详细设计与性能数据来源(Aurora vs MySQL 5x 性能提升数据)。 https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/Aurora.Overview.html
-
AWS EC2 Pricing 官方文档 On-Demand/Reserved/Spot/Savings Plans 计费模型数据来源。 https://aws.amazon.com/ec2/pricing/
市场数据
-
Synergy Research Group — Cloud Infrastructure Services Market 全球云基础设施市场份额季报,AWS/Azure/GCP 占比数据来源。 https://www.srgresearch.com/articles/category/cloud-market-share
-
Flexera 2024 State of the Cloud Report 87% 企业采用混合云策略等数据的来源。 https://www.flexera.com/blog/cloud/cloud-computing-trends-flexera-2024-state-of-the-cloud-report/
-
IEA — Electricity 2024 数据中心电力消耗报告,Green Cloud 相关数据来源(400TWh、1.5%全球用电量)。 https://www.iea.org/reports/electricity-2024
支持与分享
如果这篇文章对你有帮助,欢迎支持作者或分享给更多人
部分信息可能已经过时






