Kafka 存储：零拷贝与页缓存

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

1817 字

5 分钟

Kafka 存储：零拷贝与页缓存

2026-03-21

消息队列与事件流

消息队列

/

存储

/

内核

/

底层原理

Kafka 在普通硬件上实现了 200 万+ TPS——这个数字的秘密不是做了更多，而是做了更少。Kafka 不建索引、不做随机写、不在 Broker 端解压缩、甚至不维护消费者的消费状态。它只做一件事：把消息顺序追加到磁盘末尾。然后利用操作系统的页缓存和零拷贝（sendfile）把数据直接从页缓存送到网卡，绕过 JVM 堆内存和用户态拷贝。这种”少即是多”的存储哲学，是 Kafka 性能的根基。

一、Kafka 存储设计哲学#

1.1 为什么 Kafka 这么快？#

Kafka 的高性能并非来自某种魔法，而是对操作系统 I/O 特性的深度利用。核心思想是：避免随机 I/O，最大化顺序 I/O。

优化手段	原理	性能提升
顺序写入	追加到日志末尾，无寻道开销	比随机写快 6000 倍
页缓存	利用 OS Page Cache，避免 JVM GC	减少 GC 停顿
零拷贝	sendfile() 系统调用，跳过用户态拷贝	减少 2 次数据拷贝
批量压缩	生产者端压缩，Broker 端不解压	减少网络和磁盘 I/O
分批发送	RecordBatch 批量写入	减少 I/O 请求次数

1.2 顺序写入 vs 随机写入#

理解 Kafka 性能的关键在于理解磁盘 I/O 的本质差异：

I/O 类型	HDD 吞吐	SSD 吞吐	原因
顺序写入	~200 MB/s	~500 MB/s	无寻道开销，预读友好
随机写入	~0.1 MB/s	~50 MB/s	需要寻道/擦除
顺序读取	~200 MB/s	~500 MB/s	预读生效
随机读取	~0.1 MB/s	~50 MB/s	每次寻道

1
# 磁盘性能基准测试
2
# 顺序写入
3
dd if=/dev/zero of=/var/lib/kafka/data/test bs=1M count=1024 oflag=direct
4

5
# 随机写入（使用 fio）
6
fio --name=randwrite --ioengine=libaio --iodepth=16 \
7
    --rw=randwrite --bs=4k --direct=1 --size=1G \
8
    --numjobs=1 --runtime=60 --group_reporting
9

10
# 顺序写入（使用 fio）
11
fio --name=seqwrite --ioengine=libaio --iodepth=16 \
12
    --rw=write --bs=1M --direct=1 --size=1G \
13
    --numjobs=1 --runtime=60 --group_reporting

Note

Kafka 的设计者 Jay Kreps 曾指出：顺序写入磁盘的速度甚至可以超过随机写入内存。6 块 7200RPM SATA 硬盘组成的 RAID-5 阵列，顺序写入可达 600MB/s，而随机写入仅 100KB/s，差距 6000 倍。

二、日志段（Log Segment）#

2.1 Partition 的物理结构#

每个 Partition 在磁盘上对应一个目录，包含多个 Log Segment：

1
/var/lib/kafka/data/orders-0/
2
├── 00000000000000000000.log      # 消息数据
3
├── 00000000000000000000.index    # 偏移量索引
4
├── 00000000000000000000.timeindex # 时间戳索引
5
├── 00000000000005367851.log
6
├── 00000000000005367851.index
7
├── 00000000000005367851.timeindex
8
└── leader-epoch-checkpoint       # Leader Epoch 检查点

文件类型	作用	大小控制
`.log`	存储实际消息数据	`log.segment.bytes`（默认 1GB）
`.index`	Offset → 物理位置稀疏索引	每 4KB 一个索引项
`.timeindex`	时间戳 → Offset 稀疏索引	每 4KB 一个索引项
`.txnindex`	事务索引（事务消息）	按需创建

1
// Log Segment 的核心结构
2
public class LogSegment {
3
    private final FileRecords log;          // .log 文件
4
    private final OffsetIndex offsetIndex;  // .index 文件
5
    private final TimeIndex timeIndex;      // .timeindex 文件
6
    private final long baseOffset;          // 段的起始 Offset
7

8
    // 追加消息
9
    public void append(long offset, MemoryRecords records) {
10
        // 1. 写入 .log 文件
11
        log.append(records);
12
        // 2. 更新偏移量索引（稀疏索引，每隔一定字节记录一条）
13
        if (shouldCreateIndexEntry()) {
14
            offsetIndex.append(offset, log.sizeInBytes());
15
        }
16
        // 3. 更新时间戳索引
17
        timeIndex.maybeAppend(timestamp, offset);
18
    }
19

20
    // 查找消息
21
    public FileRecords.FileChannelRecordSearchResult searchForOffset(
22
            long targetOffset, int startingPosition) {
23
        // 1. 二分查找 .index 定位到接近的物理位置
24
        // 2. 从该位置扫描 .log 找到精确的 Offset
25
        return offsetIndex.lookup(targetOffset);
26
    }
27
}

2.2 稀疏索引设计#

Kafka 使用稀疏索引而非稠密索引，这是性能与内存的权衡：

索引类型	内存占用	查找速度	适用场景
稠密索引	高（每条消息一个索引项）	O(1)	内存足够，需要精确查找
稀疏索引	低（每隔 N 字节一个索引项）	O(1) 索引 + O(N) 扫描	内存有限，允许少量扫描

1
# 索引相关配置
2
# 索引间隔字节（越小越精确，但内存占用越大）
3
log.index.interval.bytes=4096
4

5
# 索引文件最大大小
6
log.index.size.max.bytes=10485760
7

8
# 段大小
9
log.segment.bytes=1073741824
10

11
# 段滚动时间（即使未满也滚动）
12
log.roll.hours=168
13

14
# 查看 Segment 详情
15
kafka-log-dirs --bootstrap-server localhost:9092 \
16
    --describe --topic-list orders

2.3 日志清理策略#

Kafka 提供两种日志清理策略来控制磁盘使用：

策略	原理	适用场景	配置
Delete	删除旧 Segment	日志、指标等时序数据	`log.cleanup.policy=delete`
Compact	保留每个 Key 的最新值	变更日志、状态快照	`log.cleanup.policy=compact`

graph TB subgraph "Delete 策略" D1["Segment 0 Offset 0-999"] --> D2["Segment 1 Offset 1000-1999"] D2 --> D3["Segment 2 Offset 2000-2999 (最新)"] D1 -.->|超过保留期删除| DX[" 已删除"] end subgraph "Compact 策略" C1["Key=A v1 Key=B v1 Key=A v2 Key=C v1 Key=B v2"] C2["Key=A v2 Key=B v2 Key=C v1 (保留最新值)"] C1 -->|压缩| C2 end

1
# Delete 策略配置
2
log.cleanup.policy=delete
3
log.retention.hours=168        # 保留 7 天
4
log.retention.bytes=1073741824 # 每个分区最大 1GB
5
log.retention.check.interval.ms=300000  # 每 5 分钟检查一次
6

7
# Compact 策略配置
8
log.cleanup.policy=compact
9
log.cleaner.min.compaction.lag.ms=0
10
log.cleaner.max.compaction.lag.ms=9223372036854775807
11
log.cleaner.dedupe.buffer.size=134217728
12
log.cleaner.threads=1
13
log.cleaner.backoff.ms=15000
14

15
# 同时使用两种策略
16
log.cleanup.policy=delete,compact

三、页缓存（Page Cache）#

3.1 为什么不用应用层缓存？#

Kafka 故意不使用 JVM 堆内存缓存数据，而是依赖操作系统的 Page Cache：

方案	优点	缺点
JVM 堆缓存	应用层控制精确	GC 停顿、对象开销大、重启丢失
OS Page Cache	无 GC、自动管理、重启不丢	应用层控制弱

3.2 Page Cache 工作原理#

1
# 查看 Page Cache 使用情况
2
vmtouch /var/lib/kafka/data/orders-0/
3

4
# 输出示例：
5
#            Files: 6
6
#      Directories: 1
7
#    Resident Pages: 245760/262144  960M/1G  93.75%
8
#           Elapsed: 0.003432 seconds
9

10
# 手动释放 Page Cache（仅用于测试！）
11
echo 1 > /proc/sys/vm/drop_caches
12

13
# Kafka 相关的 OS 调优
14
# 增大文件描述符限制
15
ulimit -n 100000
16

17
# 调整脏页刷回策略
18
# 脏页占内存百分比达到此值时触发刷回
19
sysctl vm.dirty_background_ratio=5
20
# 脏页占内存百分比达到此值时阻塞写入
21
sysctl vm.dirty_ratio=80
22

23
# 调整 swappiness（尽量不用 swap）
24
sysctl vm.swappiness=1

1
// Kafka 的文件写入使用 FileChannel
2
// 数据写入 Page Cache，由 OS 决定何时刷盘
3
FileChannel channel = FileChannel.open(path,
4
    StandardOpenOption.CREATE, StandardOpenOption.READ, StandardOpenOption.WRITE);
5

6
// 写入数据（进入 Page Cache）
7
channel.write(buffer);
8

9
// 强制刷盘（fsync）—— Kafka 默认不主动调用
10
// 仅在特定配置下触发
11
channel.force(true);  // metadata = true 表示同时刷元数据
12

13
// Kafka 刷盘配置
14
// log.flush.interval.messages=10000  # 每 10000 条消息刷盘
15
// log.flush.interval.ms=1000        # 每 1000ms 刷盘
16
// 注意：通常不需要手动配置刷盘，依赖 OS 的刷回策略即可

Warning

不要过度调优 log.flush.interval 参数。频繁 fsync 会严重影响性能。Kafka 的设计依赖副本机制而非单机刷盘来保证数据持久性——只要 ISR 中的副本都写入 Page Cache，即使单机宕机也不会丢数据。

3.3 预读（Readahead）#

操作系统会自动预读顺序访问的文件，这对 Kafka 的消费场景非常友好：

1
# 查看预读设置
2
blockdev --getra /dev/sda1
3

4
# 设置预读大小（单位：512 字节扇区）
5
# 256 表示预读 128KB
6
blockdev --setra 256 /dev/sda1
7

8
# 对于 Kafka 消费场景，较大的预读值可以提升性能
9
# 推荐 256-4096（128KB-2MB）
10
blockdev --setra 4096 /dev/sda1

四、零拷贝（Zero-Copy）#

4.1 传统数据拷贝#

传统方式读取文件并发送到网络需要 4 次数据拷贝：

sequenceDiagram participant App as 应用程序 participant User as 用户态缓冲区 participant Kernel as 内核态缓冲区 participant Socket as Socket 缓冲区 participant NIC as 网卡 Note over App,NIC: 传统方式：4 次拷贝 + 4 次上下文切换 App->>Kernel: read() 系统调用 Kernel->>Kernel: 1. 磁盘 → 内核缓冲区 (DMA) Kernel->>User: 2. 内核缓冲区 → 用户缓冲区 (CPU) User->>Kernel: write() 系统调用 Kernel->>Socket: 3. 用户缓冲区 → Socket 缓冲区 (CPU) Socket->>NIC: 4. Socket 缓冲区 → 网卡 (DMA)

4.2 零拷贝：sendfile()#

Kafka 使用 sendfile() 系统调用，跳过用户态的数据拷贝：

sequenceDiagram participant App as 应用程序 participant Kernel as 内核缓冲区 participant Socket as Socket 缓冲区 participant NIC as 网卡 Note over App,NIC: 零拷贝：2 次拷贝 + 2 次上下文切换 App->>Kernel: sendfile() 系统调用 Kernel->>Kernel: 1. 磁盘 → 内核缓冲区 (DMA) Kernel->>NIC: 2. 内核缓冲区 → 网卡 (DMA) 带 scatter-gather

方式	拷贝次数	上下文切换	CPU 参与
传统 read+write	4	4	2 次 CPU 拷贝
mmap + write	3	4	1 次 CPU 拷贝
sendfile	2	2	0 次 CPU 拷贝
sendfile + SG-DMA	2	2	0 次 CPU 拷贝

1
// Kafka 的零拷贝实现
2
// Kafka 使用 Java 的 FileChannel.transferTo() → 底层调用 sendfile()
3

4
// 消费者请求处理（简化版）
5
public class FetchResponse {
6
    public void writeTo(GatheringByteChannel channel) {
7
        // 零拷贝发送日志数据
8
        for (FileRecords fileRecords : records) {
9
            fileRecords.writeTo(channel, 0, fileRecords.sizeInBytes());
10
            // 底层调用：
11
            // fileChannel.transferTo(position, count, socketChannel)
12
            // → Linux sendfile() 系统调用
13
        }
14
    }
15
}
16

17
// FileChannel.transferTo 的零拷贝实现
18
// Linux 2.4+ 支持 scatter-gather DMA
19
// 数据从磁盘直接到网卡，不经过 CPU
20
FileChannel srcChannel = new FileInputStream(logFile).getChannel();
21
FileChannel destChannel = new FileOutputStream(socket).getChannel();
22
srcChannel.transferTo(0, srcChannel.size(), destChannel);

1
# 验证零拷贝是否生效
2
# 使用 strace 追踪系统调用
3
strace -e trace=sendfile -p $(pgrep -f kafka) 2>&1 | head -20
4

5
# 使用 perf 监控 sendfile 调用
6
perf stat -e 'syscalls:sys_enter_sendfile' -p $(pgrep -f kafka) sleep 10

五、消息压缩#

5.1 压缩策略#

Kafka 支持在生产者端压缩消息，Broker 端不解压，消费者端解压：

压缩算法	压缩率	CPU 开销	适用场景
none	1:1	无	网络带宽充足
gzip	高	高	带宽受限、冷数据
snappy	中	低	热数据、低延迟
lz4	中	最低	热数据、最低延迟
zstd	高	中	Kafka 2.1+，综合最优

1
// 生产者压缩配置
2
Properties props = new Properties();
3
props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "lz4");
4

5
// 批量发送配置（与压缩配合）
6
props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);    // 16KB 批次
7
props.put(ProducerConfig.LINGER_MS_CONFIG, 5);          // 等待 5ms 凑批
8

9
KafkaProducer<String, String> producer = new KafkaProducer<>(props);
10

11
// 压缩发生在 RecordBatch 层面
12
// 多条消息被压缩为一个 RecordBatch
13
// Broker 存储和传输的都是压缩后的数据
14
// 消费者收到后才解压
15

16
// 压缩效果对比
17
// 原始数据：1000 条 JSON 消息，约 500KB
18
// gzip：约 50KB（10:1）
19
// snappy：约 150KB（3.3:1）
20
// lz4：约 160KB（3.1:1）
21
// zstd：约 80KB（6.25:1）

5.2 压缩层级#

graph TB subgraph "生产者" R1["Record 1"] R2["Record 2"] R3["Record 3"] R1 --> BATCH["RecordBatch (压缩单元)"] R2 --> BATCH R3 --> BATCH BATCH -->|压缩| CB["Compressed RecordBatch"] end subgraph "Broker" CB -->|存储| LOG["Log Segment (不解压)"] end subgraph "消费者" LOG -->|传输| CB2["Compressed RecordBatch"] CB2 -->|解压| R4["Record 1"] CB2 -->|解压| R5["Record 2"] CB2 -->|解压| R6["Record 3"] end

Note

Kafka 的压缩发生在 RecordBatch 级别，而非单条消息级别。这意味着 linger.ms 和 batch.size 的配置直接影响压缩效果——更大的批次意味着更多消息一起压缩，压缩率更高。

六、日志段管理#

6.1 Segment 生命周期#

1
// Segment 的生命周期管理
2
public class Log {
3
    private final ConcurrentMap<Long, LogSegment> segments;
4

5
    // 滚动到新 Segment
6
    public void roll(OptionalLong nextOffset) {
7
        // 1. 刷新当前 Segment
8
        if (activeSegment != null) {
9
            activeSegment.flush();
10
        }
11
        // 2. 创建新 Segment
12
        long newOffset = nextOffset.orElseGet(() ->
13
            activeSegment != null ? activeSegment.readNextOffset() : 0);
14
        LogSegment newSegment = LogSegment.open(dir, newOffset, config);
15
        // 3. 添加到 segments 集合
16
        segments.put(newOffset, newSegment);
17
    }
18

19
    // 删除旧 Segment
20
    public void deleteRetentionMsBreachedSegments() {
21
        // 1. 找到超过保留期的 Segment
22
        // 2. 从 segments 集合中移除
23
        // 3. 异步删除文件
24
    }
25
}

6.2 日志清理器（Log Cleaner）#

Compact 策略的清理过程：

1
# Compact 清理过程
2
# 1. 选择最脏的 Segment（重复 Key 比例最高）
3
# 2. 将 Segment 分成 clean 和 dirty 两部分
4
# 3. 遍历 dirty 部分，保留每个 Key 的最新值
5
# 4. 将清理后的数据写入新 Segment
6
# 5. 替换旧 Segment
7

8
# Compact 相关配置
9
log.cleaner.enable=true
10
log.cleaner.threads=2
11
log.cleaner.dedupe.buffer.size=134217728    # 去重缓冲区 128MB
12
log.cleaner.io.buffer.load.factor=0.9
13
log.cleaner.backoff.ms=15000
14
log.cleaner.min.cleanable.dirty.ratio=0.5   # dirty 比例超过 50% 才清理

七、生产环境存储优化#

7.1 磁盘规划#

场景	磁盘类型	RAID	文件系统	挂载选项
低延迟交易	NVMe SSD	无（JBOD）	XFS	noatime,nodiratime
大数据管道	SATA HDD	RAID-10	XFS	noatime,nodiratime
混合负载	SSD+HDD	JBOD	XFS	noatime,nodiratime

1
# XFS 文件系统创建和挂载
2
mkfs.xfs -f /dev/sdb1
3
mount -o noatime,nodiratime /dev/sdb1 /var/lib/kafka/data
4

5
# /etc/fstab 持久化
6
/dev/sdb1 /var/lib/kafka/data xfs noatime,nodiratime 0 2
7

8
# JBOD 配置（多磁盘）
9
# server.properties
10
log.dirs=/disk1/kafka,/disk2/kafka,/disk3/kafka,/disk4/kafka
11

12
# 磁盘空间监控
13
df -h /var/lib/kafka/data/
14
du -sh /var/lib/kafka/data/*/

7.2 性能调优参数#

1
# Broker 存储相关配置
2
# 段大小
3
log.segment.bytes=1073741824        # 1GB
4

5
# 刷盘策略（通常不需要修改）
6
# log.flush.interval.messages=10000
7
# log.flush.interval.ms=1000
8

9
# 保留策略
10
log.retention.hours=168             # 7 天
11
log.retention.bytes=-1              # 不限制大小
12
log.retention.check.interval.ms=300000
13

14
# 清理策略
15
log.cleanup.policy=delete
16
log.cleaner.enable=true
17

18
# 文件描述符
19
# /etc/security/limits.conf
20
# kafka soft nofile 100000
21
# kafka hard nofile 100000

7.3 监控指标#

指标	含义	告警阈值
`LogFlushRateAndTimeMs`	刷盘频率和耗时	> 100ms
`BytesInPerSec`	写入速率	接近磁盘上限
`BytesOutPerSec`	读取速率	接近网络上限
`Size`	Partition 数据大小	> 80% 磁盘容量
`Segments`	Segment 数量	过多影响性能

1
// 监控磁盘使用
2
// JMX MBean: kafka.log:type=Log,name=Size,topic=*,partition=*
3
// JMX MBean: kafka.log:type=LogManager,name=LogFlushRateAndTimeMs
4

5
// 使用 kafka-log-dirs 查看磁盘使用
6
kafka-log-dirs --bootstrap-server localhost:9092 --describe

八、存储架构对比#

维度	Kafka	RabbitMQ	RocketMQ	Pulsar
存储模型	Append-Only Log	内存 + 持久化	CommitLog + ConsumeQueue	BookKeeper Ledger
索引方式	稀疏索引	无索引（按序消费）	稠密索引	Ledger 索引
缓存策略	OS Page Cache	Broker 内存	OS Page Cache	分层缓存
零拷贝	sendfile	无	mmap + sendfile	BookKeeper 分层
压缩	生产者端	无	生产者端	Broker 端
清理策略	Delete/Compact	TTL/Queue 长度	定时删除	Ledger 滚动

九、总结#

上一章剖析了Kafka 架构与分区机制。

维度	关键要点
顺序写入	Kafka 性能的基石——追加写入避免寻道，比随机写快数千倍
页缓存	利用 OS Page Cache 避免 JVM GC，重启后缓存仍有效
零拷贝	sendfile() 跳过用户态拷贝，减少 CPU 开销和上下文切换
压缩	生产者端压缩、Broker 端透传、消费者端解压，减少网络和磁盘 I/O
日志段	稀疏索引平衡内存与查找速度，Delete/Compact 两种清理策略
调优	不要过度调优 fsync，依赖副本而非单机刷盘保证持久性