Kafka 架构：分区、副本与消费者组

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

2309 字

7 分钟

Kafka 架构：分区、副本与消费者组

2026-03-14

消息队列与事件流

消息队列

/

分布式

/

底层原理

LinkedIn 每天处理超过 7 万亿条消息——这个数字不是靠堆硬件撑起来的，而是靠架构设计。Kafka 用**分区（Partition）把吞吐量拆分到多台 Broker 上并行处理，用副本（Replica）保证单机故障不丢数据，用消费者组（Consumer Group）**让消费能力随节点数线性扩展。这三个概念构成了 Kafka 架构的铁三角，理解它们的协作方式，就理解了 Kafka 为什么能做到高吞吐与高可用兼得。

一、Kafka 架构总览#

1.1 核心概念#

Kafka 是一个分布式事件流平台，它的核心设计目标是：高吞吐、低延迟、持久化、水平可扩展。理解 Kafka 架构的关键在于把握三个层次：

层次	核心概念	作用
存储层	Topic / Partition / Segment	数据如何组织与存储
复制层	Replica / ISR / Leader	数据如何冗余与容错
消费层	Consumer Group / Offset	数据如何被消费与追踪

graph TB subgraph "Kafka 集群" B1["Broker 1"] B2["Broker 2"] B3["Broker 3"] end subgraph "Topic: orders" P0["Partition 0 Leader: B1 Follower: B2, B3"] P1["Partition 1 Leader: B2 Follower: B1, B3"] P2["Partition 2 Leader: B3 Follower: B1, B2"] end subgraph "生产者" PROD["Producer"] end subgraph "消费者组" CG["Consumer Group A"] C1["Consumer 1 (P0, P1)"] C2["Consumer 2 (P2)"] end PROD --> P0 PROD --> P1 PROD --> P2 P0 --> C1 P1 --> C1 P2 --> C2

1.2 Broker 的角色#

Broker 是 Kafka 集群中的一个节点，它的核心职责包括：

存储服务：每个 Broker 存储一部分 Partition 的数据
协调服务：Controller Broker 负责分区 Leader 选举、副本分配
客户端服务：处理生产者发送请求和消费者拉取请求

1
# 查看 Broker 信息
2
kafka-broker-api-versions --bootstrap-server localhost:9092
3

4
# 查看 Controller
5
kafka-metadata --bootstrap-server localhost:9092 --describe
6

7
# Broker 关键配置
8
# server.properties
9
broker.id=1
10
listeners=PLAINTEXT://:9092
11
log.dirs=/var/lib/kafka/data
12
num.network.threads=3
13
num.io.threads=8
14
socket.send.buffer.bytes=102400
15
socket.receive.buffer.bytes=102400

Note

Kafka 集群中只有一个 Controller Broker。Controller 负责管理分区状态、副本分配和 Leader 选举。如果 Controller 宕机，ZooKeeper/KRaft 会自动选举新的 Controller。

1.3 Topic 与 Partition#

Topic 是逻辑上的消息分类，Partition 是物理上的数据分片。一个 Topic 被分成多个 Partition，分布在不同 Broker 上：

概念	说明	类比
Topic	消息的逻辑分类	数据库中的表
Partition	Topic 的物理分片	数据库中的分片
Offset	Partition 内消息的唯一标识	自增主键
Segment	Partition 的物理文件	WAL 日志段

1
// 创建 Topic：3 个分区，3 个副本
2
Properties props = new Properties();
3
props.put(AdminClientConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
4

5
try (AdminClient admin = AdminClient.create(props)) {
6
    NewTopic topic = new NewTopic("orders", 3, (short) 3);
7
    admin.createTopics(Collections.singletonList(topic)).all().get();
8
}
9

10
// 查看分区详情
11
DescribeTopicsResult result = admin.describeTopics(
12
    Collections.singletonList("orders")
13
);
14
result.topicNameValues().get("orders").get().partitions()
15
    .forEach(p -> {
16
        System.out.printf("Partition %d: Leader=%d, Replicas=%s, ISR=%s%n",
17
            p.partition(), p.leader().id(),
18
            p.replicas(), p.isr());
19
    });

二、分区机制深入#

2.1 分区策略#

生产者发送消息时，需要决定消息进入哪个分区。Kafka 提供了三种分区策略：

策略	实现方式	适用场景	顺序保证
指定分区	`ProducerRecord(topic, partition, ...)`	需要精确控制	分区内有序
Key Hash	`hash(key) % numPartitions`	需要相同 Key 进入同一分区	Key 内有序
轮询(Round-Robin)	`StickyPartitioner`（默认）	无 Key，均匀分布	无序

1
// 分区策略示例
2
// 1. 指定分区
3
ProducerRecord<String, String> record1 =
4
    new ProducerRecord<>("orders", 0, "key1", "value1");
5

6
// 2. Key Hash 分区
7
ProducerRecord<String, String> record2 =
8
    new ProducerRecord<>("orders", "orderId-123", "value2");
9
// Kafka 会计算 hash("orderId-123") % numPartitions
10

11
// 3. 无 Key 轮询
12
ProducerRecord<String, String> record3 =
13
    new ProducerRecord<>("orders", "value3");
14
// StickyPartitioner 会批量发送到同一分区，减少请求数
15

16
// 自定义分区器
17
public class OrderPartitioner implements Partitioner {
18
    @Override
19
    public int partition(String topic, Object key, byte[] keyBytes,
20
                         Object value, byte[] valueBytes, Cluster cluster) {
21
        // 按订单类型分区：普通订单 → 0-2，VIP 订单 → 3-5
22
        String orderType = extractOrderType(value.toString());
23
        int numPartitions = cluster.partitionCountForTopic(topic);
24
        if ("VIP".equals(orderType)) {
25
            return 3 + Math.abs(key.hashCode() % 3);
26
        }
27
        return Math.abs(key.hashCode() % 3);
28
    }
29
}

2.2 分区数量选择#

分区数量直接影响并行度和吞吐量，但不是越多越好：

因素	分区少	分区多
吞吐量	受限（并行度低）	高（并行度高）
顺序保证	范围大	范围小（仅分区内有序）
文件句柄	少	多（每个分区多个文件）
故障恢复	快	慢（更多 Leader 选举）
内存开销	低	高（每个分区缓冲区）

Warning

分区数量一旦增加就不能减少。增加分区会改变 Key 到分区的映射关系，导致相同 Key 的消息可能分布到不同分区，破坏顺序性。建议初始分区数按预期峰值设计，而非从少量开始逐步增加。

1
# 增加分区（只能增加，不能减少）
2
kafka-topics --alter --bootstrap-server localhost:9092 \
3
    --topic orders --partitions 6
4

5
# 分区数估算公式
6
# 目标吞吐量 / 单分区吞吐量 = 所需分区数
7
# 例：目标 100MB/s，单分区 10MB/s → 10 个分区
8

9
# 单分区吞吐量基准测试
10
kafka-producer-perf-test --topic test \
11
    --num-records 1000000 \
12
    --record-size 1024 \
13
    --throughput -1 \
14
    --producer-props bootstrap.servers=localhost:9092

2.3 分区与 Key 的关系#

graph LR subgraph "生产者" P1["消息 Key=order-1"] P2["消息 Key=order-2"] P3["消息 Key=order-3"] P4["消息 Key=order-1"] end subgraph "分区器" H["Hash 分区器 hash(key) % 3"] end subgraph "分区" PART0["Partition 0 order-1, order-1"] PART1["Partition 1 order-2"] PART2["Partition 2 order-3"] end P1 --> H P2 --> H P3 --> H P4 --> H H -->|hash%3=0| PART0 H -->|hash%3=1| PART1 H -->|hash%3=2| PART2

三、副本机制与 ISR#

3.1 副本模型#

Kafka 通过副本（Replica）实现高可用。每个 Partition 有多个副本，分布在不同 Broker 上：

副本角色	职责	数量
Leader Replica	处理所有读写请求	每个分区 1 个
Follower Replica	从 Leader 拉取数据，不处理客户端请求	每个分区 N-1 个
Preferred Leader	优先选举为 Leader 的副本	配置指定

1
// 副本分配策略
2
// 手动指定副本分布
3
Map<Integer, List<Integer>> assignment = new HashMap<>();
4
// Partition 0: Leader=0, Followers=1,2
5
assignment.put(0, Arrays.asList(0, 1, 2));
6
// Partition 1: Leader=1, Followers=2,0
7
assignment.put(1, Arrays.asList(1, 2, 0));
8
// Partition 2: Leader=2, Followers=0,1
9
assignment.put(2, Arrays.asList(2, 0, 1));
10

11
admin.createPartitions(
12
    new CreatePartitionsOptions()
13
).call(); // 使用 NewPartitions.increaseTo() 增加分区

3.2 ISR（In-Sync Replicas）#

ISR 是 Kafka 副本机制的核心概念。ISR 包含所有与 Leader 保持同步的副本集合：

graph TB subgraph "Partition 0 的副本" L["Leader Broker 1 Offset: 1000"] F1["Follower Broker 2 Offset: 998 在 ISR 中"] F2["Follower Broker 3 Offset: 950 不在 ISR 中"] end subgraph "同步过程" FETCH1["Fetch 请求 Broker 2 → Broker 1"] FETCH2["Fetch 请求 Broker 3 → Broker 1 (落后太多)"] end L --> FETCH1 L --> FETCH2 FETCH1 --> F1 FETCH2 --> F2 style F1 fill:#c8e6c9,stroke:#2e7d32 style F2 fill:#ffcdd2,stroke:#c62828

ISR 的关键参数：

参数	默认值	说明
`replica.lag.time.max.ms`	10000	Follower 落后超过此时间则移出 ISR
`min.insync.replicas`	1	ISR 中最少副本数，低于此值拒绝写入
`unclean.leader.election.enable`	false	是否允许非 ISR 副本成为 Leader

1
# 查看 ISR 状态
2
kafka-topics --describe --bootstrap-server localhost:9092 \
3
    --topic orders
4

5
# 输出示例：
6
# Topic: orders  PartitionCount: 3  ReplicationFactor: 3
7
# Topic: orders  Partition: 0  Leader: 1  Replicas: 1,2,3  Isr: 1,2
8
# Topic: orders  Partition: 1  Leader: 2  Replicas: 2,3,1  Isr: 2,3,1
9
# Topic: orders  Partition: 2  Leader: 3  Replicas: 3,1,2  Isr: 3,1
10

11
# 关键配置
12
# 生产者 ACK + min.insync.replicas 配合保证可靠性
13
# acks=all + min.insync.replicas=2 → 至少 2 个副本确认才返回成功

3.3 Leader 选举与 Epoch#

当 Leader 宕机时，Kafka 需要从 ISR 中选举新的 Leader。这个过程涉及多个 Epoch 概念：

Epoch 类型	作用	递增时机
Controller Epoch	标识 Controller 代次	Controller 变更
Leader Epoch	标识分区 Leader 代次	Leader 切换
Start Offset	新 Leader 开始的 Offset	Leader 切换

1
// Leader 选举过程（简化版）
2
// 1. Controller 检测到 Leader 宕机
3
// 2. 从 ISR 中选择第一个存活的副本作为新 Leader
4
// 3. 更新 ZooKeeper/KRaft 中的元数据
5
// 4. 通知所有 Broker 新的 Leader 信息
6

7
// 使用 AdminClient 查看 Leader Epoch
8
DescribeTopicsResult desc = admin.describeTopics(
9
    Collections.singletonList("orders")
10
);
11
// LeaderAndIsr 包含：leader, leaderEpoch, isr, zkVersion

Note

Kafka 使用 Leader Epoch 而非 High Watermark 来解决数据不一致问题。在旧版本中，Follower 重启后会截断到 High Watermark 位置，可能导致已提交的消息丢失。Leader Epoch 机制让 Follower 只截断到旧 Leader 的最后一个 Offset，避免了这个问题。

3.4 副本同步流程#

sequenceDiagram participant L as Leader (Broker 1) participant F1 as Follower (Broker 2) participant F2 as Follower (Broker 3) Note over L: 接收生产者消息 Offset: 1000 F1->>L: FetchRequest(leaderEpoch=5, fetchOffset=998) L->>F1: FetchResponse(records, highWatermark=1000) F1->>F1: 写入日志，更新 LEO=1000 F1->>F1: 更新 HighWatermark=min(LEO, L的HW) F2->>L: FetchRequest(leaderEpoch=5, fetchOffset=950) L->>F2: FetchResponse(records, highWatermark=1000) F2->>F2: 写入日志，更新 LEO=980 Note over F2: 落后太多，可能被移出 ISR Note over L: 更新 ISR = [1, 2] F2 被移出 ISR

四、消费者组深入#

4.1 消费者组模型#

消费者组是 Kafka 实现消费水平扩展的核心机制。同一个组内的消费者共同消费一个 Topic，每个分区只被组内一个消费者消费：

场景	消费者数	分区数	每个消费者消费的分区数
消费者 < 分区	2	6	3
消费者 = 分区	6	6	1
消费者 > 分区	8	6	6 个消费者各 1 个，2 个空闲

1
// 消费者组配置
2
Properties props = new Properties();
3
props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
4
props.put(ConsumerConfig.GROUP_ID_CONFIG, "order-service");
5
props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG,
6
    StringDeserializer.class.getName());
7
props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG,
8
    StringDeserializer.class.getName());
9
props.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");
10
props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "false");
11
props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, "500");
12
props.put(ConsumerConfig.MAX_POLL_INTERVAL_MS_CONFIG, "300000");
13

14
KafkaConsumer<String, String> consumer =
15
    new KafkaConsumer<>(props);
16
consumer.subscribe(Collections.singletonList("orders"));

4.2 分区分配策略#

当消费者组内成员变化时，需要重新分配分区。Kafka 提供了三种分配策略：

策略	算法	特点	适用场景
RangeAssignor	按分区范围均分	可能不均匀	默认策略
RoundRobinAssignor	轮询分配	均匀	多 Topic 场景
StickyAssignor	尽量保持原有分配	最少迁移	减少重平衡开销
CooperativeStickyAssignor	增量式重平衡	不停消费	Kafka 2.4+

1
// RangeAssignor 示例
2
// Topic: orders, 7 个分区, 3 个消费者
3
// Consumer 0: Partition 0, 1, 2  (3个)
4
// Consumer 1: Partition 3, 4     (2个)
5
// Consumer 2: Partition 5, 6     (2个)
6

7
// RoundRobinAssignor 示例
8
// Topic: orders, 7 个分区, 3 个消费者
9
// Consumer 0: Partition 0, 3, 6  (3个)
10
// Consumer 1: Partition 1, 4     (2个)
11
// Consumer 2: Partition 2, 5     (2个)
12

13
// 设置分配策略
14
props.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG,
15
    StickyAssignor.class.getName());
16

17
// 使用 CooperativeStickyAssignor（推荐）
18
props.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG,
19
    CooperativeStickyAssignor.class.getName());

4.3 Rebalance 机制#

Rebalance 是消费者组内分区重新分配的过程，触发条件包括：

graph TD A["Rebalance 触发条件"] --> B["消费者加入组"] A --> C["消费者离开组"] A --> D["消费者心跳超时"] A --> E["Topic 分区数变化"] A --> F["订阅的 Topic 变化"] B --> G["执行分区重新分配"] C --> G D --> G E --> G F --> G G --> H["Eager Rebalance 所有消费者停止消费 重新分配后恢复"] G --> I["Cooperative Rebalance 增量分配 仅受影响分区暂停"]

Rebalance 的关键参数：

参数	默认值	说明
`session.timeout.ms`	45000	心跳超时，超过则认为消费者死亡
`heartbeat.interval.ms`	3000	心跳发送间隔
`max.poll.interval.ms`	300000	两次 poll 最大间隔
`group.initial.rebalance.delay.ms`	3000	首次 Rebalance 延迟等待

1
# 查看消费者组状态
2
kafka-consumer-groups --bootstrap-server localhost:9092 \
3
    --describe --group order-service
4

5
# 输出示例：
6
# GROUP           TOPIC   PARTITION  CURRENT-OFFSET  LOG-END-OFFSET  LAG
7
# order-service   orders  0          1000            1050            50
8
# order-service   orders  1          980             1020            40
9
# order-service   orders  2          950             1000            50
10

11
# 重置消费者组 Offset
12
kafka-consumer-groups --bootstrap-server localhost:9092 \
13
    --group order-service --topic orders \
14
    --reset-offsets --to-earliest --execute

Warning

Rebalance 期间消费者无法消费消息（Eager 模式），频繁 Rebalance 会导致消费延迟。常见原因：消费者处理时间超过 max.poll.interval.ms、GC 停顿、网络抖动。建议使用 CooperativeStickyAssignor 并调大 max.poll.interval.ms。

4.4 Offset 管理#

Offset 记录了消费者组在每个分区上的消费进度：

1
// 手动提交 Offset
2
while (true) {
3
    ConsumerRecords<String, String> records =
4
        consumer.poll(Duration.ofMillis(100));
5

6
    for (ConsumerRecord<String, String> record : records) {
7
        // 处理消息
8
        processOrder(record.value());
9
    }
10

11
    // 同步提交（阻塞等待确认）
12
    consumer.commitSync();
13

14
    // 或异步提交（不等待确认）
15
    consumer.commitAsync(new OffsetCommitCallback() {
16
        @Override
17
        public void onComplete(Map<TopicPartition, OffsetAndMetadata> offsets,
18
                               Exception exception) {
19
            if (exception != null) {
20
                log.error("提交 Offset 失败", exception);
21
            }
22
        }
23
    });
24
}
25

26
// 精确提交 Offset（处理完每条消息后）
27
Map<TopicPartition, OffsetAndMetadata> commitMap = new HashMap<>();
28
for (ConsumerRecord<String, String> record : records) {
29
    processOrder(record.value());
30
    commitMap.put(
31
        new TopicPartition(record.topic(), record.partition()),
32
        new OffsetAndMetadata(record.offset() + 1)
33
    );
34
}
35
consumer.commitSync(commitMap);

五、Controller 与协调服务#

5.1 Controller 职责#

Controller 是 Kafka 集群的大脑，负责管理集群元数据和协调操作：

职责	说明
分区 Leader 选举	Broker 宕机时选举新 Leader
副本分配	新建 Topic 时分配副本到 Broker
分区重分配	扩容时迁移分区数据
Preferred Leader 选举	恢复原始 Leader 分配
Topic 管理	创建/删除 Topic
ISR 管理	更新 ISR 集合

1
# Controller 相关操作
2
# 查看当前 Controller
3
kafka-metadata --bootstrap-server localhost:9092 --describe
4

5
# 手动触发 Preferred Leader 选举
6
kafka-leader-election --bootstrap-server localhost:9092 \
7
    --election-type preferred \
8
    --topic orders --partition 0
9

10
# 分区重分配
11
cat > reassignment.json << 'EOF'
12
{
13
    "partitions": [
14
        {"topic": "orders", "partition": 0, "replicas": [3, 1, 2]},
15
        {"topic": "orders", "partition": 1, "replicas": [1, 2, 3]}
16
    ]
17
}
18
EOF
19

20
kafka-reassign-partitions --bootstrap-server localhost:9092 \
21
    --reassignment-json-file reassignment.json \
22
    --execute

5.2 KRaft 模式（ZooKeeper 替代）#

Kafka 2.8+ 引入 KRaft 模式，不再依赖 ZooKeeper：

维度	ZooKeeper 模式	KRaft 模式
元数据存储	ZooKeeper 集群	内置 Raft 共识
运维复杂度	两套集群	一套集群
Controller 选举	ZooKeeper 临时节点	Raft 协议
分区限制	~200,000	数百万
元数据传播	逐个 Broker 更新	批量广播

1
# KRaft 模式初始化
2
kafka-storage format -t $(uuidgen) -c server.properties
3

4
# KRaft 模式启动
5
kafka-server-start.sh server.properties
6

7
# KRaft 元数据查询
8
kafka-metadata-quorum --bootstrap-server localhost:9092 describe --status

六、生产环境最佳实践#

6.1 分区数规划#

场景	推荐分区数	依据
低流量日志收集	6-12	单分区 10MB/s 足够
中等流量业务事件	12-24	考虑消费者并行度
高流量交易数据	24-72	需要高吞吐
超大规模数据管道	100+	需要仔细评估

6.2 副本配置建议#

1
# 生产环境推荐配置
2
# 副本数 = 3（平衡可靠性与成本）
3
# min.insync.replicas = 2（允许 1 个副本故障）
4
# acks = all（确保消息写入所有 ISR 副本）
5

6
# Broker 配置
7
default.replication.factor=3
8
min.insync.replicas=2
9
unclean.leader.election.enable=false
10

11
# Producer 配置
12
acks=all
13
retries=2147483647
14
max.in.flight.requests.per.connection=5
15
enable.idempotence=true
16

17
# Consumer 配置
18
enable.auto.commit=false
19
auto.offset.reset=earliest
20
max.poll.records=500
21
max.poll.interval.ms=300000
22
session.timeout.ms=30000

6.3 监控关键指标#

指标	含义	告警阈值
`UnderReplicatedPartitions`	ISR < AR 的分区数	> 0
`OfflinePartitionsCount`	无 Leader 的分区数	> 0
`ActiveControllerCount`	活跃 Controller 数	≠ 1
`ConsumerLag`	消费者落后量	> 10000
`RequestHandlerAvgIdlePercent`	请求处理器空闲率	< 0.3

1
// 使用 Kafka Metrics API 监控
2
Map<MetricName, ? extends Metric> metrics = kafkaConsumer.metrics();
3
metrics.forEach((name, metric) -> {
4
    if (name.name().equals("records-lag-max")) {
5
        System.out.printf("Consumer Lag: %s%n", metric.metricValue());
6
    }
7
});
8

9
// JMX 监控关键 MBean
10
// kafka.server:type=ReplicaManager,name=UnderReplicatedPartitions
11
// kafka.controller:type=KafkaController,name=ActiveControllerCount
12
// kafka.consumer:type=consumer-fetch-manager-metrics,client-id=*

Tip

使用 kafka-consumer-groups --describe 定期检查 Consumer Lag。如果 Lag 持续增长，说明消费速度跟不上生产速度，需要增加消费者或优化消费逻辑。

七、架构对比总结#

维度	Kafka	RabbitMQ	RocketMQ	Pulsar
数据模型	Topic/Partition/Offset	Exchange/Queue/Binding	Topic/Queue/Tag	Topic/Subscription/Cursor
消费模型	拉取(Pull)	推送(Push)	推拉结合	拉取(Pull)
分区/队列	Partition	Queue	MessageQueue	Segment
消费者组	Consumer Group	无原生支持	Consumer Group	Subscription
副本机制	ISR	镜像队列	Dledger	BookKeeper
顺序保证	分区内有序	队列有序	队列有序	分区内有序

八、总结#

上一章建立了消息语义与可靠性的认知框架。

维度	关键要点
分区	分区是并行度和吞吐量的基础，分区数需提前规划，只能增不能减
副本	副本保证高可用，ISR 机制确保数据一致性，`min.insync.replicas` + `acks=all` 是可靠性保证
消费者组	消费者组实现消费水平扩展，Rebalance 是关键挑战，推荐 CooperativeStickyAssignor
Controller	Controller 是集群大脑，KRaft 模式替代 ZooKeeper 降低运维复杂度
监控	UnderReplicatedPartitions、ConsumerLag 是最关键的监控指标