消息积压与反压

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

1844 字

5 分钟

消息积压与反压

2026-04-22

消息队列与事件流

消息队列

/

底层原理

凌晨 3 点告警响起——Kafka 消费者 Lag 从 0 飙到 5000 万。生产者还在以每秒 5 万条的速度写入，消费者每秒只能处理 1 万条。差距每秒扩大 4 万条，磁盘空间还能撑 6 小时。这不是假设——这是大促后最常见的线上事故。消息积压的本质是生产速度持续大于消费速度，而解决积压的关键不是”加快消费”这么简单：是加消费者还是优化消费逻辑？是扩分区还是临时丢弃非关键消息？是反压生产者还是接受延迟？每个选择都有代价。

一、消息积压的根因分析#

1.1 积压的本质#

消息积压的本质是生产速度 > 消费速度的持续状态。短期的速度不匹配是正常的，但长期不匹配会导致积压：

graph LR subgraph "正常状态" P1["Producer 1000 msg/s"] --> Q1["Queue Lag ≈ 0"] Q1 --> C1["Consumer 1000 msg/s"] end subgraph "积压状态" P2["Producer 10000 msg/s"] --> Q2["Queue Lag ↑↑↑"] Q2 --> C2["Consumer 1000 msg/s"] end

积压阶段	Lag 范围	影响	紧急度
轻微	分钟级	消费延迟增加	低
中度	小时级	业务感知延迟	中
严重	天级	数据过期、磁盘告警	高
灾难	超出保留期	消息丢失	紧急

1.2 积压的五大根因#

根因	说明	典型场景
消费端故障	Consumer 宕机或 OOM	大促时消费者崩溃
消费逻辑慢	DB 慢查询、外部 API 超时	下游数据库性能下降
生产突增	流量洪峰超出容量	双十一秒杀
分区不均衡	某些分区消息过多	Key 分布不均匀
Rebalance 风暴	频繁 Rebalance 导致消费暂停	消费者配置不当

graph TB LAG["消息积压"] --> C1["消费端故障"] LAG --> C2["消费逻辑慢"] LAG --> C3["生产突增"] LAG --> C4["分区不均衡"] LAG --> C5["Rebalance 风暴"] C2 --> C2A["DB 慢查询"] C2 --> C2B["外部 API 超时"] C2 --> C2C["GC 停顿"] C3 --> C3A["大促流量"] C3 --> C3B["批量导入"] C3 --> C3C["重放历史数据"] C5 --> C5A["session.timeout 过短"] C5 --> C5B["消费者频繁上下线"] C5 --> C5C["心跳延迟"]

1.3 积压监控指标#

指标	Kafka	RabbitMQ	RocketMQ	告警阈值
消费延迟	Consumer Lag	Queue Depth	Consumer Offset Diff	> 10万条
消费速率	bytes-consumed-rate	message_rates.deliver	tps	下降 50%
生产速率	bytes-produced-rate	message_rates.publish	tps	突增 3x
消费者状态	Consumer State	Consumer Count	Consumer Status	消费者掉线
磁盘使用	Disk Usage	Disk Free	Disk Usage	> 80%

1
# Kafka：查看 Consumer Lag
2
kafka-consumer-groups --bootstrap-server localhost:9092 \
3
    --describe --group order-consumer-group
4

5
# 输出：
6
# TOPIC   PARTITION  CURRENT-OFFSET  LOG-END-OFFSET  LAG
7
# orders  0          12345           56789           44444
8
# orders  1          23456           67890           44434
9

10
# RabbitMQ：查看队列深度
11
rabbitmqctl list_queues name messages consumers message_rates
12

13
# RocketMQ：查看消费进度
14
./mqadmin consumerProgress -g order-consumer-group

Note

监控 Lag 时，不要只看绝对值，更要看趋势。Lag 持续增长说明消费速度跟不上生产速度；Lag 稳定说明虽然延迟但能追上；Lag 下降说明正在恢复。

二、消费速度优化#

2.1 增加消费者#

最直接的方案是增加消费者实例：

graph TB subgraph "优化前：2 消费者" Q1["Topic (4 partitions)"] --> C1["Consumer 1 2 partitions"] Q1 --> C2["Consumer 2 2 partitions"] Note1["总消费速度: 2000 msg/s"] end subgraph "优化后：4 消费者" Q2["Topic (4 partitions)"] --> C3["Consumer 1 1 partition"] Q2 --> C4["Consumer 2 1 partition"] Q2 --> C5["Consumer 3 1 partition"] Q2 --> C6["Consumer 4 1 partition"] Note2["总消费速度: 4000 msg/s"] end

系统限制	说明	解决方案
Kafka	消费者数 ≤ 分区数	增加分区数
RabbitMQ	消费者数无限制	直接增加消费者
RocketMQ	消费者数 ≤ 队列数	增加队列数

1
# Kafka：增加分区（注意：会影响 Key 路由）
2
kafka-topics --bootstrap-server localhost:9092 \
3
    --alter --topic orders --partitions 16
4

5
# RocketMQ：增加队列
6
./mqadmin updateTopic -n localhost:9876 -t TopicOrder -c DefaultCluster -r 16

2.2 提升单消费者吞吐#

优化项	Kafka 配置	效果
批量消费	`max.poll.records=500`	减少网络往返
预取	`fetch.min.bytes=1MB`	减少请求次数
并发处理	多线程处理拉取到的记录	提高处理并行度
异步提交	`enable.auto.commit=true`	减少 commit 开销

1
// Kafka：多线程消费优化
2
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
3
consumer.subscribe(List.of("orders"));
4

5
ExecutorService executor = Executors.newFixedThreadPool(8);
6

7
while (true) {
8
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
9
    // 按 Partition 分组，每个 Partition 内保持有序
10
    Map<TopicPartition, List<ConsumerRecord<String, String>>> partitioned =
11
        records.partitions().stream()
12
            .collect(Collectors.toMap(
13
                tp -> tp,
14
                tp -> records.records(tp)
15
            ));
16

17
    List<Future<?>> futures = new ArrayList<>();
18
    for (var entry : partitioned.entrySet()) {
19
        futures.add(executor.submit(() -> {
20
            for (var record : entry.getValue()) {
21
                processRecord(record);
22
            }
23
        }));
24
    }
25

26
    // 等待所有线程完成
27
    for (Future<?> f : futures) f.get();
28
    consumer.commitSync();
29
}

2.3 跳过非关键消息#

在极端积压场景下，可以跳过部分非关键消息：

1
// 策略一：只消费最新消息（跳过积压）
2
props.put("auto.offset.reset", "latest");  // 从最新开始消费
3

4
// 策略二：重置 Offset 到最近位置
5
kafka-consumer-groups --bootstrap-server localhost:9092 \
6
    --group order-consumer-group \
7
    --reset-offsets --to-latest --execute --topic orders
8

9
// 策略三：按时间重置（跳过超过保留期的消息）
10
kafka-consumer-groups --bootstrap-server localhost:9092 \
11
    --group order-consumer-group \
12
    --reset-offsets --to-datetime 2026-10-12T00:00:00 --execute --topic orders

策略	数据损失	恢复速度	适用场景
从最新消费	丢失所有积压消息	即时	日志、监控数据
按时间重置	丢失指定时间前的消息	快	可容忍部分丢失
增加消费者	无	中	首选方案
临时消费者	无	快	需要额外资源

三、反压机制#

3.1 什么是反压？#

反压（Backpressure）是当消费者处理不过来时，向生产者传递”减速”信号，防止系统过载：

sequenceDiagram participant P as Producer participant Q as Queue participant C as Consumer Note over P,C: 正常状态 P->>Q: 1000 msg/s Q->>C: 1000 msg/s Note over C: 消费变慢！ C->>Q: 只能处理 500 msg/s Q->>Q: 积压增加 Note over Q,C: 反压触发 Q->>P: 反压信号（减速） P->>Q: 500 msg/s（降速） Q->>C: 500 msg/s Note over Q: 积压不再增长

3.2 各系统的反压实现#

系统	反压机制	触发条件	效果
Kafka	无原生反压	—	Consumer 自行控制拉取速率
RabbitMQ	Credit-based 流控	内存/磁盘阈值	阻塞 Connection
RocketMQ	拉取式消费	Consumer 处理能力	自动调节拉取频率
Pulsar	Consumer 流控	Permit 机制	精确控制投递速率

1
// Kafka：Consumer 端流控
2
// 通过控制 poll 频率和 max.poll.records 实现反压
3
props.put("max.poll.records", 100);        // 每次 poll 最多 100 条
4
props.put("max.poll.interval.ms", 300000); // 5 分钟内必须处理完
5

6
// 如果处理慢，自动降低 poll 频率
7
while (true) {
8
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
9
    if (records.count() > 0) {
10
        processRecords(records);
11
        // 处理慢 → 下次 poll 延迟
12
    }
13
}

1
// RabbitMQ：Consumer 端流控
2
channel.basicQos(100);  // 预取 100 条
3

4
channel.basicConsume("order-queue", false, new DefaultConsumer(channel) {
5
    @Override
6
    public void handleDelivery(String tag, Envelope envelope,
7
                               AMQP.BasicProperties props, byte[] body) {
8
        processMessage(body);
9
        // 手动确认后，RabbitMQ 才会投递新消息
10
        channel.basicAck(envelope.getDeliveryTag(), false);
11
    }
12
});
13

14
// 如果处理慢，不 ACK → RabbitMQ 不再投递新消息 → 自动反压

1
// Pulsar：Consumer 端流控
2
Consumer<byte[]> consumer = client.newConsumer()
3
    .topic("orders")
4
    .subscriptionName("order-processor")
5
    .receiverQueueSize(100)  // 接收队列大小
6
    .subscribe();
7

8
// Pulsar 使用 permit 机制：Consumer 消费一条消息后发放一个 permit
9
// Broker 只在有 permit 时才投递消息

3.3 Producer 端反压#

当消息系统本身无法承受写入速度时，需要对 Producer 施加反压：

1
// Kafka Producer：缓冲区满时阻塞
2
props.put("buffer.memory", 67108864);     // 64MB 缓冲区
3
props.put("max.block.ms", 60000);         // 缓冲区满时最多阻塞 60 秒
4

5
try {
6
    producer.send(record, (metadata, exception) -> {
7
        if (exception != null) {
8
            log.error("Send failed", exception);
9
        }
10
    });
11
} catch (BufferExhaustedException e) {
12
    // 缓冲区满，需要降速或降级
13
    log.warn("Producer buffer full, applying backpressure");
14
}

策略	说明	数据损失	适用场景
阻塞等待	缓冲区满时阻塞	无	可容忍延迟
降速	降低发送速率	无	流量控制
降级	丢弃低优先级消息	部分	有优先级区分
转储	写入本地文件/DB	无	临时缓冲

四、死信队列#

4.1 死信的产生与处理#

当消息消费失败超过重试次数后，进入死信队列：

1
// Kafka：手动实现死信队列
2
while (true) {
3
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
4
    for (var record : records) {
5
        int retryCount = getRetryCount(record);
6
        try {
7
            processRecord(record);
8
        } catch (Exception e) {
9
            if (retryCount >= MAX_RETRIES) {
10
                // 发送到死信 Topic
11
                ProducerRecord<String, String> dlqRecord = new ProducerRecord<>(
12
                    "orders.DLQ",
13
                    record.key(),
14
                    record.value()
15
                );
16
                dlqProducer.send(dlqRecord);
17
                log.error("Message sent to DLQ after {} retries: {}", retryCount, record.value());
18
            } else {
19
                // 发送到重试 Topic
20
                sendToRetryTopic(record, retryCount + 1);
21
            }
22
        }
23
    }
24
    consumer.commitSync();
25
}

4.2 各系统的死信实现#

系统	死信机制	配置
Kafka	无内置，需手动实现	自定义 DLQ Topic
RabbitMQ	原生死信 Exchange	`x-dead-letter-exchange`
RocketMQ	内置死信队列	`%DLQ%ConsumerGroup`
Pulsar	重试 Letter Topic	`retryLetterTopic`

1
# RabbitMQ：查看死信队列
2
rabbitmqctl list_queues name messages arguments | grep dlx
3

4
# RocketMQ：查看死信队列
5
./mqadmin examineTopicStats -t %DLQ%order-consumer-group
6

7
# Kafka：消费死信 Topic
8
kafka-console-consumer --bootstrap-server localhost:9092 --topic orders.DLQ

Warning

死信队列不是”垃圾桶”——每条死信消息都代表一个业务异常。务必建立死信监控和告警机制，定期分析死信原因并修复。如果死信率持续上升，说明系统存在根本性问题。

五、降级策略#

5.1 多级降级方案#

当积压无法快速消除时，需要降级以保证核心业务：

graph TD LAG["消息积压"] --> LEVEL1["Level 1: 扩容 增加消费者"] LEVEL1 -->|"不够"| LEVEL2["Level 2: 优化 提升消费速度"] LEVEL2 -->|"不够"| LEVEL3["Level 3: 降级 跳过非关键消息"] LEVEL3 -->|"不够"| LEVEL4["Level 4: 转储 写入备用存储"] LEVEL4 -->|"不够"| LEVEL5["Level 5: 限流 限制生产速率"]

降级级别	策略	影响	恢复难度
Level 1	增加消费者实例	无	低（缩容即可）
Level 2	优化消费逻辑	无	低
Level 3	跳过非关键消息	部分数据丢失	中
Level 4	转储到备用存储	延迟处理	高（需回填）
Level 5	限制生产速率	业务受限	低

5.2 临时消费者模式#

1
// 临时消费者：快速消费积压消息，不做业务处理，只转储
2
public class EmergencyConsumer {
3
    private final KafkaConsumer<String, String> consumer;
4
    private final Producer<File> fileProducer;  // 写入本地文件
5

6
    public void startEmergencyConsume() {
7
        while (true) {
8
            ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
9
            for (var record : records) {
10
                // 转储到文件，后续回填
11
                fileProducer.write(record.key(), record.value(), record.timestamp());
12
            }
13
            consumer.commitSync();
14

15
            if (getLag() < THRESHOLD) {
16
                log.info("Lag recovered, stopping emergency consumer");
17
                break;
18
            }
19
        }
20
    }
21
}

5.3 优先级消费#

1
// 按消息优先级消费
2
public class PriorityConsumer {
3
    public void consumeWithPriority() {
4
        // 先消费高优先级 Topic
5
        consumeTopic("orders-high-priority");
6
        // 再消费普通 Topic
7
        consumeTopic("orders-normal");
8
        // 最后消费低优先级 Topic
9
        consumeTopic("orders-low-priority");
10
    }
11

12
    private void consumeTopic(String topic) {
13
        // 消费到 Lag < 阈值后切换
14
        while (getLag(topic) > LAG_THRESHOLD) {
15
            var records = consumer.poll(Duration.ofMillis(100));
16
            processRecords(records);
17
        }
18
    }
19
}

六、预防积压的架构设计#

6.1 容量规划#

指标	计算公式	示例
峰值生产速率	日均 × 峰值倍数	1000 × 10 = 10000 msg/s
所需消费者数	峰值速率 / 单消费者速率	10000 / 2000 = 5
安全余量	所需消费者 × 1.5	5 × 1.5 = 8
磁盘容量	峰值速率 × 保留时间 × 消息大小	10000 × 86400 × 1KB = 864GB/天

6.2 自动伸缩#

1
# Kubernetes HPA：基于 Consumer Lag 自动伸缩
2
apiVersion: autoscaling/v2
3
kind: HorizontalPodAutoscaler
4
metadata:
5
  name: order-consumer-hpa
6
spec:
7
  scaleTargetRef:
8
    apiVersion: apps/v1
9
    kind: Deployment
10
    name: order-consumer
11
  minReplicas: 2
12
  maxReplicas: 20
13
  metrics:
14
    - type: External
15
      external:
16
        metric:
17
          name: kafka_consumer_lag
18
        target:
19
          type: AverageValue
20
          averageValue: "10000"

6.3 熔断与限流#

1
// Producer 端限流
2
public class RateLimitedProducer {
3
    private final RateLimiter rateLimiter = RateLimiter.create(5000); // 5000 msg/s
4

5
    public void send(String topic, String key, byte[] value) {
6
        if (!rateLimiter.tryAcquire(100, TimeUnit.MILLISECONDS)) {
7
            // 限流：丢弃或缓冲
8
            log.warn("Rate limited, message buffered");
9
            bufferMessage(topic, key, value);
10
            return;
11
        }
12
        producer.send(new ProducerRecord<>(topic, key, value));
13
    }
14
}

七、各系统积压处理对比#

维度	Kafka	RabbitMQ	RocketMQ	Pulsar
积压指标	Consumer Lag	Queue Depth	Offset Diff	Backlog Size
增加消费者	≤ 分区数	无限制	≤ 队列数	无限制
反压机制	Consumer 自控	Credit-based	拉取式	Permit
死信队列	手动实现	原生支持	内置	重试 Letter
消息跳过	Offset 重置	丢弃策略	跳过非活跃	Subscription reset
分区扩容	支持（影响路由）	N/A	支持	支持

Tip

消息积压的处理原则：1）监控先行——Lag 告警是第一道防线；2）快速扩容——消费者实例的弹性伸缩是首选方案；3）降级有序——从扩容到优化到跳过，逐步升级；4）根因分析——积压是症状，找到根因才能根治。

八、总结#

上一章从全景视角介绍了消息有序性。

维度	关键要点
根因分析	消费端故障、逻辑慢、生产突增、分区不均、Rebalance 风暴
消费优化	增加消费者、提升单消费者吞吐、跳过非关键消息
反压机制	Consumer 端流控（QoS/permit）、Producer 端限流
死信队列	重试失败后进入 DLQ，必须监控和告警
降级策略	扩容 → 优化 → 跳过 → 转储 → 限流
预防设计	容量规划、自动伸缩、熔断限流