Saga 模式：长事务的编排方案

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

1273 字

3 分钟

Saga 模式：长事务的编排方案

2025-02-28

分布式系统深入

分布式

/

底层原理

某旅行平台预订流程：用户需要同时预订机票、酒店和租车。三个服务分别调用，如果机票预订成功但酒店满房，需要取消机票并通知用户。整个过程可能持续数秒甚至数分钟，2PC 的长时间锁阻塞不可接受，TCC 的资源冻结在跨企业场景下也不现实。Saga 模式通过正向操作与补偿操作配对，成为长事务场景的最佳选择。

一、Saga 的核心思想#

Saga 将长事务拆分为多个本地事务，每个本地事务都有对应的补偿操作：

正向操作：执行业务逻辑
补偿操作：撤销正向操作的影响

如果某个步骤失败，按反向顺序依次执行已完成步骤的补偿操作。

1
正向流程：T1 → T2 → T3 → T4（成功）
2
失败回滚：T1 → T2 → T3 失败 → C3 → C2 → C1（补偿）

Info

Saga 的补偿操作不是”回滚”，而是”语义上的撤销”。例如，扣款的补偿不是恢复余额，而是增加一笔等额的退款记录。两者的业务含义不同。

二、两种编排方式#

2.1 编排式（Orchestration）#

由一个中央协调器（Orchestrator）统一控制流程：

sequenceDiagram participant O as 协调器 participant F as 机票服务 participant H as 酒店服务 participant C as 租车服务 O->>F: 预订机票 F-->>O: 成功 O->>H: 预订酒店 H-->>O: 失败 O->>F: 取消机票（补偿）

优点：

流程集中管理，逻辑清晰
容易监控和调试
适合复杂流程

缺点：

协调器是单点，需要高可用保障
协调器与所有服务耦合

2.2 协调式（Choreography）#

各服务通过事件驱动，自主决定下一步操作：

sequenceDiagram participant F as 机票服务 participant H as 酒店服务 participant C as 租车服务 participant E as 事件总线 F->>E: 机票预订成功事件 E->>H: 触发酒店预订 H->>E: 酒店预订失败事件 E->>F: 触发机票取消

优点：

去中心化，无单点故障
服务间松耦合
适合简单流程

缺点：

流程分散，难以整体理解
调试困难，需要分布式追踪
循环依赖风险

2.3 两种方式对比#

维度	编排式	协调式
流程可见性	高	低
单点风险	有	无
耦合度	中	低
调试难度	低	高
适用场景	复杂流程	简单流程

三、补偿操作设计#

3.1 补偿的语义#

补偿操作不是物理回滚，而是语义上的撤销：

正向操作	补偿操作	说明
扣款 100 元	退款 100 元	不是恢复余额，而是新增退款记录
创建订单	取消订单	订单状态变为”已取消”，而非删除
扣减库存	恢复库存	增加可用库存
发送邮件	发送通知邮件	无法撤回已发邮件，发送补充说明

3.2 补偿的幂等性#

补偿操作可能被重复调用，必须保证幂等：

1
public void cancelOrder(String txnId, String orderId) {
2
    // 幂等性检查
3
    if (compensationLog.exists(txnId, "CANCEL_ORDER")) {
4
        return; // 已补偿，直接返回
5
    }
6

7
    Order order = orderMapper.selectById(orderId);
8
    if (order.getStatus() == OrderStatus.CANCELLED) {
9
        return; // 已取消，直接返回
10
    }
11

12
    order.setStatus(OrderStatus.CANCELLED);
13
    orderMapper.updateById(order);
14

15
    compensationLog.record(txnId, "CANCEL_ORDER");
16
}

3.3 补偿的顺序#

补偿必须按正向操作的反序执行：

1
正向：T1 → T2 → T3
2
补偿：C3 → C2 → C1

如果 T3 失败，先补偿 T2，再补偿 T1。这是因为后续操作可能依赖前序操作的结果。

四、Saga 的隔离性问题#

Saga 不提供全局隔离性，可能出现以下问题：

4.1 脏读#

事务 T1 执行后，T2 读取了 T1 的中间结果，但 T1 最终被补偿。

1
T1: 扣减库存（库存从 10 变为 9）
2
T2: 其他事务读取库存为 9
3
T1 补偿: 恢复库存（库存从 9 变为 10）
4
T2 基于过期数据做了决策

4.2 不可重复读#

同一事务内两次读取同一数据，结果不同。

4.3 幻读#

其他事务在 Saga 执行期间插入了新数据。

4.4 隔离性保障策略#

策略	原理	代价
语义锁	在业务数据上标记”处理中”状态	增加业务复杂度
交换律	设计可交换的操作	限制业务模型
悲观视图	重排 Saga 步骤避免脏读	可能增加延迟
版本控制	使用乐观锁检测冲突	冲突时需重试

五、Seata Saga 实践#

Seata 提供了基于状态机的 Saga 实现。

5.1 状态机定义#

1
{
2
  "Name": "travelBooking",
3
  "Comment": "旅行预订 Saga",
4
  "StartState": "BookFlight",
5
  "States": {
6
    "BookFlight": {
7
      "Type": "ServiceTask",
8
      "ServiceName": "flightService",
9
      "ServiceMethod": "book",
10
      "CompensateState": "CancelFlight",
11
      "Next": "BookHotel",
12
      "Input": ["$.flightInfo"],
13
      "Output": {"flightBookingId": "$.bookingId"}
14
    },
15
    "BookHotel": {
16
      "Type": "ServiceTask",
17
      "ServiceName": "hotelService",
18
      "ServiceMethod": "book",
19
      "CompensateState": "CancelHotel",
20
      "Next": "BookCar",
21
      "Input": ["$.hotelInfo"],
22
      "Output": {"hotelBookingId": "$.bookingId"}
23
    },
24
    "BookCar": {
25
      "Type": "ServiceTask",
26
      "ServiceName": "carService",
27
      "ServiceMethod": "book",
28
      "CompensateState": "CancelCar",
29
      "Next": "Succeed",
30
      "Input": ["$.carInfo"]
31
    },
32
    "CancelFlight": {
33
      "Type": "CompensateSubMachine",
34
      "ServiceName": "flightService",
35
      "ServiceMethod": "cancel"
36
    },
37
    "CancelHotel": {
38
      "Type": "CompensateSubMachine",
39
      "ServiceName": "hotelService",
40
      "ServiceMethod": "cancel"
41
    },
42
    "CancelCar": {
43
      "Type": "CompensateSubMachine",
44
      "ServiceName": "carService",
45
      "ServiceMethod": "cancel"
46
    },
47
    "Succeed": {
48
      "Type": "Succeed"
49
    }
50
  }
51
}

5.2 状态机执行#

1
// 启动 Saga 状态机
2
StateMachineEngine engine = new DbStateMachineEngine(dataSource);
3
StateMachineInstance instance = engine.start(
4
    "travelBooking",
5
    BusinessType.COMMON,
6
    params
7
);
8

9
// 查询执行状态
10
StateMachineInstance status = engine.queryInstance(instance.getId());

六、Saga 适用场景#

6.1 适合使用 Saga 的场景#

长事务（秒级到分钟级）
跨企业/跨组织的业务流程
参与者数量较多
可以接受最终一致性
补偿操作语义明确

6.2 不适合使用 Saga 的场景#

对隔离性要求高（如金融核心交易）
补偿操作难以定义（如发送邮件）
参与者数量少且事务短（2PC 更简单）
实时性要求极高

七、Saga 与其他方案的对比#

维度	2PC	TCC	Saga
一致性	强一致	最终一致	最终一致
隔离性	强	中	弱
阻塞	严重	无	无
事务时长	短	中	长
业务侵入	无	高	中
补偿设计	不需要	需要	需要
适用场景	短事务	高并发	长流程