Go 调度器原理：GMP 模型详解

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

1605 字

5 分钟

Go 调度器原理：GMP 模型详解

2023-07-27

原理

Golang

/

操作系统

/

并发

前言#

Go 语言最强大的特性之一就是 goroutine。一个 Go 程序可以轻松创建数十万个 goroutine，它们由 Go 运行时的调度器管理，在少量操作系统线程上高效运行。这一切背后的核心就是 GMP 调度模型。本文将深入 Go 调度器的每一个细节，从数据结构到调度策略，从 Work Stealing 到抢占机制。

调度器演进#

从 GM 到 GMP#

Go 调度器经历了一次重大架构变革：

flowchart TB subgraph "GM 模型 (Go 1.0)" A[Global Queue] --> B[M1] A --> C[M2] A --> D[M3] B --> A C --> A D --> A end subgraph "GMP 模型 (Go 1.1+)" E[Global Queue] --> F[P1] --> G[M1] E --> H[P2] --> I[M2] E --> J[P3] --> K[M3] F --> E H --> E J --> E end

GM 模型的问题：

1
GM 模型 (Go 1.0):
2
┌──────────────────────────────────────────────┐
3
│               Global Queue                    │
4
│   [G1] [G2] [G3] [G4] [G5] [G6] [G7] ...  │
5
└──────────────┬───────────────────────────────┘
6
               │ 全局锁竞争!
7
         ┌─────┼─────┐
8
         ▼     ▼     ▼
9
       [M1]  [M2]  [M3]
10

11
问题:
12
1. 全局队列需要加锁, 严重的锁竞争
13
2. M 从全局队列获取 G 时, 所有 M 都在争抢同一把锁
14
3. G 的局部性差: 同一个 G 可能被不同的 M 执行
15
4. 没有本地的缓存, 每次都要访问全局队列

GMP 模型的改进：

1
GMP 模型 (Go 1.1+):
2
┌─────────────────────────────────────┐
3
│           Global Queue               │
4
│   [G1] [G2] [G3] [G4] [G5] ...    │
5
└─────────────────────────────────────┘
6

7
  P1 (本地队列)        P2 (本地队列)
8
  [G10][G11][G12]     [G20][G21][G22]
9
       │                   │
10
       ▼                   ▼
11
      [M1]               [M2]
12

13
优势:
14
1. P 本地队列无锁, 减少竞争
15
2. G 的局部性好: 同一个 P 上的 G 通常在同一个 M 上执行
16
3. Work Stealing: 空闲 P 可以从其他 P 窃取 G
17
4. Hand Off: M 阻塞时 P 可以绑定到新的 M

一、核心数据结构#

1.1 G (Goroutine)#

G 是 goroutine 的运行时表示，源码定义在 src/runtime/runtime2.go：

1
// src/runtime/runtime2.go - 简化
2
type g struct {
3
    // 栈信息
4
    stack       stack   // 栈范围 [lo, hi]
5
    stackguard0 uintptr // 栈溢出检查
6
    stackguard1 uintptr // 栈溢出检查 (C 栈)
7

8
    // 调度信息
9
    _panic    *_panic
10
    _defer    *_defer
11
    m         *m       // 当前绑定的 M
12
    sched     gobuf    // 保存的调度上下文
13
    param     unsafe.Pointer
14

15
    // 状态
16
    atomicstatus atomic.Uint32
17
    gopc        uintptr   // 创建者的 PC
18
    startpc     uintptr   // go 语句的 PC
19

20
    // 抢占相关
21
    preempt       bool // 抢占标志
22
    preemptStop   bool // 抢占时停止
23
    preemptShrink bool // 抢占时缩小栈
24

25
    // 等待相关
26
    waiting       *sudog // 等待队列
27
    timer         *timer
28

29
    // 栈增长
30
    stktopsp     uintptr
31
}

栈结构：

1
Goroutine 栈布局 (动态增长):
2
高地址
3
┌────────────────────────────────┐
4
│        Stack Guard              │ ← stackguard0
5
│        (栈溢出检测区域)         │
6
├────────────────────────────────┤
7
│                                │
8
│        栈增长空间               │
9
│        (预留给栈增长)           │
10
│                                │
11
├────────────────────────────────┤ ← stktopsp
12
│        函数帧 N                 │
13
├────────────────────────────────┤
14
│        函数帧 N-1               │
15
├────────────────────────────────┤
16
│        ...                      │
17
├────────────────────────────────┤
18
│        函数帧 1 (runtime.main) │
19
├────────────────────────────────┤
20
│        函数帧 0 (goexit)       │ ← sched.sp
21
└────────────────────────────────┘ ← stack.lo
22
低地址

G 的状态转换：

stateDiagram-v2 [*] --> Dead: go func() Dead --> Runnable: newproc() Runnable --> Running: schedule() Running --> Waiting: chan/mutex/IO Waiting --> Runnable: 唤醒 Running --> Runnable: preempt/yield Running --> Dead: goexit() Running --> Syscall: 系统调用 Syscall --> Runnable: 退出系统调用 Syscall --> Running: 退出系统调用(同一M)

G 的完整状态列表：

1
┌──────────────┬──────────────┬──────────────────────────────────┐
2
│ 状态          │ 值            │ 说明                             │
3
├──────────────┼──────────────┼──────────────────────────────────┤
4
│ _Gidle       │ 0            │ 刚分配, 尚未初始化               │
5
│ _Grunnable   │ 1            │ 在运行队列中等待执行             │
6
│ _Grunning    │ 2            │ 正在执行                         │
7
│ _Gsyscall    │ 3            │ 正在执行系统调用                 │
8
│ _Gwaiting    │ 4            │ 被阻塞 (chan/IO/timer)           │
9
│ _Gdead       │ 6            │ 已退出或复用                     │
10
│ _Gcopystack  │ 8            │ 栈正在被复制/增长                │
11
│ _Gpreempted  │ 9            │ 被抢占 (Go 1.14+)               │
12
└──────────────┴──────────────┴──────────────────────────────────┘

1.2 M (Machine)#

M 代表一个操作系统线程：

1
// src/runtime/runtime2.go - 简化
2
type m struct {
3
    g0      *g      // M 的特殊 g, 用于调度器栈
4
    curg    *g      // 当前运行的 G
5
    p       puintptr // 绑定的 P
6
    nextp   puintptr // 唤醒时绑定的 P
7
    oldp    puintptr // 系统调用前的 P
8

9
    // 线程信息
10
    id       int64
11
    procid   uint64    // OS 线程 ID
12
    osthread bool      // 是否为 OS 线程
13

14
    // 调度信息
15
    spinning  bool     // 是否正在寻找 G
16
    lockedg   guintptr // 锁定的 G (LockOSThread)
17
    park      note     // 休眠通知
18
    alllink   *m       // 全局 M 链表
19

20
    // 用于 cgo
21
    ncgocall   uint64
22
    ncgo       int32
23
}

g0 的作用：

1
每个 M 都有一个特殊的 g0 (调度栈):
2
┌─────────────────────────────────────┐
3
│           用户 G 的栈                │ ← curg.stack
4
│  (业务代码, 可动态增长/缩小)         │
5
├─────────────────────────────────────┤
6
│           g0 的栈                    │ ← g0.stack
7
│  (调度器代码, 固定大小 ~8KB)         │
8
│  - schedule()                       │
9
│  - execute()                        │
10
│  - gosave() / gogo()                │
11
│  - 栈增长 (newstack)                │
12
│  - GC 相关操作                      │
13
└─────────────────────────────────────┘
14

15
切换过程:
16
  curg ──gosave()──▶ g0  (保存用户 G 的上下文)
17
  g0   ──gogo()───▶ curg (恢复用户 G 的上下文)

1.3 P (Processor)#

P 是逻辑处理器，是 GMP 模型的核心创新：

1
// src/runtime/runtime2.go - 简化
2
type p struct {
3
    id          int32
4
    status      uint32 // P 的状态
5
    link        puintptr
6
    m           muintptr // 绑定的 M
7

8
    // 本地运行队列 (无锁)
9
    runqhead uint32
10
    runqtail uint32
11
    runq     [256]guintptr // 本地队列 (环形缓冲区)
12
    runnext  guintptr      // 优先运行的 G
13

14
    // 可用的 G 缓存
15
    gFree struct {
16
        gList
17
        n int32
18
    }
19

20
    // 延时执行的 G (timer)
21
    timers      []*timer
22
    numTimers   atomic.Int32
23

24
    // GC 相关
25
    gcAssistTime     float64
26
    gcFractionalMarkTime float64
27
}

P 的状态转换：

stateDiagram-v2 [*] --> Pidle: schedinit Pidle --> Prunning: wirep (绑定M) Prunning --> Pidle: releasep (解绑) Prunning --> Psyscall: 进入系统调用 Psyscall --> Prunning: 退出系统调用(同一M) Psyscall --> Pidle: handoffp (系统调用超时) Prunning --> Pstop: stopm Pstop --> Pidle: 开始运行

1
┌──────────────┬──────┬──────────────────────────────────────┐
2
│ 状态          │ 值    │ 说明                                 │
3
├──────────────┼──────┼──────────────────────────────────────┤
4
│ _Pidle       │ 0    │ 空闲, 没有 M 绑定                    │
5
│ _Prunning    │ 1    │ 被 M 绑定, 正在执行用户代码           │
6
│ _Psyscall    │ 2    │ 绑定的 M 在系统调用中                 │
7
│ _Pgcstop     │ 3    │ 被GC 暂停                            │
8
│ _Pdead       │ 4    │ 不再使用 (GOMAXPROCS 减小)           │
9
└──────────────┴──────┴──────────────────────────────────────┘

1.4 三者关系#

1
GMP 关系全景:
2
┌──────────────────────────────────────────────────────────┐
3
│                     Global Run Queue                      │
4
│            [G1] [G2] [G3] [G4] [G5] [G6] ...           │
5
└──────────────────────────────────────────────────────────┘
6
         │                    │                   │
7
    ┌────▼─────┐        ┌────▼─────┐        ┌────▼─────┐
8
    │    P0     │        │    P1     │        │    P2     │
9
    │ ┌──────┐ │        │ ┌──────┐ │        │ ┌──────┐ │
10
    │ │本地队列│ │        │ │本地队列│ │        │ │本地队列│ │
11
    │ │[G][G] │ │        │ │[G][G] │ │        │ │[G][G] │ │
12
    │ │[G][G] │ │        │ │[G][G] │ │        │ │[G][G] │ │
13
    │ └──────┘ │        │ └──────┘ │        │ └──────┘ │
14
    │ runnext:G│        │ runnext:G│        │ runnext:G│
15
    │    │     │        │    │     │        │    │     │
16
    └────┼─────┘        └────┼─────┘        └────┼─────┘
17
         │                   │                   │
18
         ▼                   ▼                   ▼
19
       [M0]                [M1]                [M2]
20
    (OS Thread)          (OS Thread)          (OS Thread)
21
         │                   │                   │
22
         ▼                   ▼                   ▼
23
    执行 curg            执行 curg            执行 curg

二、调度流程#

2.1 从 go func() 到被调度#

当你写下 go func() 时，运行时做了什么？

1
// 用户代码
2
go hello("world")

编译器会将 go 关键字翻译为 runtime.newproc 调用：

1
// src/runtime/proc.go - 简化
2
func newproc(fn *funcval, argp unsafe.Pointer) {
3
    gp := getg()
4
    pc := getcallerpc()
5

6
    // 获取当前 G 所在的 P
7
    pp := gp.m.p.ptr()
8

9
    // 从 P 的空闲列表获取或新建 G
10
    newg := gfget(pp)
11
    if newg == nil {
12
        // 创建新的 G, 初始栈大小 2KB (Go 1.4+)
13
        newg = malg(stackMin)
14
        casgstatus(newg, _Gidle, _Gdead)
15
        allgadd(newg)
16
    }
17

18
    // 设置 G 的入口函数和参数
19
    memmove(unsafe.Pointer(newg.stack.hi-argSize), argp, argSize)
20
    gostartcallfn(&newg.sched, fn)
21
    newg.gopc = pc
22

23
    // 将 G 放入运行队列
24
    casgstatus(newg, _Gdead, _Grunnable)
25
    runqput(pp, newg, true)
26

27
    // 如果有其他空闲的 P, 唤醒一个 M 来执行
28
    if mainStarted {
29
        wakep()
30
    }
31
}

完整流程：

sequenceDiagram participant U as 用户代码 participant R as Runtime participant P as P (本地队列) participant G as Global Queue participant M as 空闲 M U->>R: go func() R->>R: newproc() R->>P: gfget() 获取空闲 G alt 有空闲 G P-->>R: 返回复用的 G else 无空闲 G R->>R: malg() 创建新 G (2KB 栈) end R->>R: 初始化 G 的栈和调度上下文 R->>P: runqput() 放入本地队列 alt 本地队列满 (256个) P->>G: runqputslow() 移一半到全局队列 end R->>M: wakep() 唤醒空闲 M M->>M: 切换到 g0 栈 M->>P: 从本地队列获取 G M->>M: gogo() 切换到 G 执行

2.2 调度核心循环#

M 的执行循环在 src/runtime/proc.go 的 schedule 函数中：

1
// src/runtime/proc.go - 简化
2
func schedule() {
3
    mp := getg().m
4

5
    // 每调度 61 次, 优先从全局队列获取 (防止饥饿)
6
    if mp.p.ptr().schedtick%61 == 0 && sched.runqsize > 0 {
7
        lock(&sched.lock)
8
        gp := globrunqget(mp.p.ptr(), 1)
9
        unlock(&sched.lock)
10
        if gp != nil {
11
            execute(gp, inheritTime)
12
            return
13
        }
14
    }
15

16
    // 1. 从 P 的本地队列获取
17
    gp, inheritTime := runqget(mp.p.ptr())
18

19
    // 2. 没有可运行的 G, 开始寻找
20
    if gp == nil {
21
        gp, inheritTime = findrunnable()
22
    }
23

24
    execute(gp, inheritTime)
25
}

findrunnable 查找顺序：

flowchart TB A[findrunnable] --> B[1. 本地队列] B --> C{找到 G?} C -->|是| Z[执行] C -->|否| D[2. 全局队列] D --> E{找到 G?} E -->|是| Z E -->|否| F[3. netpoll] F --> G{找到 G?} G -->|是| Z G -->|否| H[4. 从其他 P 窃取] H --> I{找到 G?} I -->|是| Z I -->|否| J[5. 再次检查全局队列] J --> K{找到 G?} K -->|是| Z K -->|否| L[6. 休眠当前 M]

1
// src/runtime/proc.go - 简化
2
func findrunnable() (gp *g, inheritTime bool) {
3
    mp := getg().m
4
    pp := mp.p.ptr()
5

6
    // 1. 本地队列
7
    if gp, inheritTime := runqget(pp); gp != nil {
8
        return gp, inheritTime
9
    }
10

11
    // 2. 全局队列
12
    if sched.runqsize > 0 {
13
        lock(&sched.lock)
14
        gp := globrunqget(pp, 0)
15
        unlock(&sched.lock)
16
        if gp != nil {
17
            return gp, false
18
        }
19
    }
20

21
    // 3. 网络轮询器
22
    if netpollinited() {
23
        if gp := netpoll(false); gp != nil { // 非阻塞
24
            return gp, false
25
        }
26
    }
27

28
    // 4. Work Stealing: 从其他 P 窃取
29
    gp, inheritTime := stealWork(now)
30
    if gp != nil {
31
        return gp, inheritTime
32
    }
33

34
    // 5. 再次检查全局队列和 netpoll...
35

36
    // 6. 实在没有 G, 休眠
37
    stopm()
38
    // 被唤醒后重新 schedule()
39
    return nil, false
40
}

三、Work Stealing：窃取机制#

3.1 窃取策略#

当一个 P 的本地队列和全局队列都没有可运行的 G 时，它会尝试从其他 P 窃取：

窃取算法实现（stealWork）：

1
// src/runtime/proc.go - 简化
2
func stealWork(now int64) (gp *g, inheritTime bool) {
3
    pp := getg().m.p.ptr()
4
    p2 := randomStealOrder(pp.id) // 随机选择起始 P
5

6
    for i := 0; i < int(gomaxprocs); i++ {
7
        // 跳过自己
8
        if p2 == pp {
9
            continue
10
        }
11

12
        // 从 P2 的本地队列窃取一半
13
        gp := runqsteal(pp, p2, true)
14
        if gp != nil {
15
            return gp, true
16
        }
17

18
        // 还可以窃取 P2 上正在运行的 G (如果它在系统调用中)
19
        // 以及 timer
20

21
        p2 = nextStealOrder(p2)
22
    }
23
    return nil, false
24
}

窃取细节：

1
P1 本地队列 (环形缓冲区):
2
┌──────────────────────────────────────────────┐
3
│ [G1] [G2] [G3] [G4] [G5] [G6] [_] [_] ...  │
4
│  ▲                              ▲            │
5
│ runqhead                       runqtail      │
6
└──────────────────────────────────────────────┘
7

8
P0 窃取一半 (3 个 G):
9
┌──────────────────────────────────────────────┐
10
│ [G1] [G2] [G3] [_] [_] [_] [_] [_] ...      │
11
│  ▲          ▲                                │
12
│ runqhead   runqtail                           │
13
└──────────────────────────────────────────────┘
14

15
P0 获得: [G4] [G5] [G6]

3.2 runqput：放入本地队列#

1
// src/runtime/proc.go - 简化
2
func runqput(pp *p, gp *g, next bool) {
3
    // next=true 表示优先执行 (放到 runnext 位置)
4
    if next {
5
        oldnext := pp.runnext
6
        if !pp.runnext.cas(oldnext, guintptr(unsafe.Pointer(gp))) {
7
            // runnext 被其他线程修改了, 重试
8
        }
9
        if oldnext != 0 {
10
            // 把旧的 runnext 放到队列尾部
11
            runqputslow(pp, oldnext.ptr(), 0)
12
        }
13
        return
14
    }
15

16
    // 放到本地队列尾部
17
    h := atomic.LoadAcq(&pp.runqhead)
18
    t := pp.runqtail
19
    if t-h < uint32(len(pp.runq)) {
20
        pp.runq[t%uint32(len(pp.runq))].set(gp)
21
        atomic.StoreRel(&pp.runqtail, t+1)
22
        return
23
    }
24

25
    // 本地队列满了, 移一半到全局队列
26
    runqputslow(pp, gp, 0)
27
}

四、Hand Off：系统调用处理#

4.1 系统调用时的 M 与 P 分离#

当 goroutine 执行系统调用时，M 会被操作系统阻塞。GMP 模型通过 Hand Off 机制，将 P 从阻塞的 M 上分离，绑定到新的 M 继续执行其他 G：

sequenceDiagram participant G as Goroutine participant M1 as M1 (原线程) participant P as P participant M2 as M2 (新线程) Note over G: G 执行系统调用 G->>M1: entersyscall() M1->>P: 解绑 P (status=Psyscall) Note over M1: M1 被OS阻塞 Note over P: sysmon 检测到 Psyscall P->>M2: handoffp() M2->>P: 绑定 P (status=Prunning) M2->>M2: 执行其他 G Note over G: 系统调用返回 G->>M1: exitsyscall() M1->>M1: 尝试获取 P alt 原来的 P 还在 M1->>P: 重新绑定 P M1->>M1: 继续执行 G else 原来的 P 已被夺走 M1->>M1: 把 G 放入全局队列 M1->>M1: 休眠 (进入空闲 M 列表) end

源码实现：

1
// src/runtime/proc.go - 简化
2

3
// 进入系统调用
4
func entersyscall() {
5
    mp := getg().m
6
    gp := mp.curg
7

8
    // 保存 G 的调度上下文
9
    save(gp.sched.sp, gp.sched.pc)
10

11
    // 将 P 的状态设为 Psyscall
12
    pp := mp.p.ptr()
13
    pp.status = _Psyscall
14

15
    // 更新系统调用时间戳
16
    pp.syscalltick++
17
}
18

19
// 退出系统调用
20
func exitsyscall() {
21
    mp := getg().m
22
    gp := mp.curg
23

24
    // 尝试重新获取 P
25
    pp := mp.p.ptr()
26
    if pp.status == _Psyscall {
27
        // 原来的 P 还在, 重新绑定
28
        casgstatus(gp, _Gsyscall, _Grunning)
29
        return
30
    }
31

32
    // 原来的 P 已被夺走
33
    // 尝试获取一个空闲的 P
34
    pp = pidleget()
35
    if pp != nil {
36
        mp.p.set(pp)
37
        pp.m.set(mp)
38
        casgstatus(gp, _Gsyscall, _Grunning)
39
        return
40
    }
41

42
    // 没有空闲的 P, 放入全局队列
43
    globrunqput(gp)
44
    // M 进入休眠
45
    stopm()
46
}

4.2 Hand Off 触发条件#

系统监控 sysmon 定期检查处于 _Psyscall 状态的 P：

1
// src/runtime/proc.go - 简化
2
func retake(now int64) uint32 {
3
    n := 0
4
    for i := 0; i < len(allp); i++ {
5
        pp := allp[i]
6
        s := pp.status
7

8
        if s == _Psyscall {
9
            // 系统调用超过 20μs, 夺取 P
10
            t := int64(pp.syscalltick)
11
            if runqempty(pp) && sched.nmspinning.Load()+sched.npidle.Load() > 0 {
12
                // P 本地队列为空且有其他空闲资源, 不夺取
13
                continue
14
            }
15
            if now - t > 20*1000 { // 20μs
16
                // 原子修改 P 的状态
17
                if pp.casstatus(_Psyscall, _Pidle) {
18
                    n++
19
                    // 把 P 交给其他 M
20
                    handoffp(pp)
21
                }
22
            }
23
        }
24
    }
25
    return n
26
}

五、抢占机制#

5.1 基于协作的抢占 (Go 1.2 - 1.13)#

早期的抢占机制依赖函数调用时的栈检查。编译器在每个函数的入口插入栈增长检查代码，如果发现 stackguard0 被设置为 stackPreempt，就会触发抢占：

1
// 编译器插入的栈检查代码 (伪代码)
2
func someFunction() {
3
    // 函数入口: 检查栈
4
    if stackguard0 == stackPreempt {
5
        // 被标记为需要抢占
6
        runtime.newstack() // 这里会调用 gosched+0
7
    }
8
    // ... 函数体
9
}

问题：纯计算密集型循环（无函数调用）无法被抢占：

1
// 这段代码在 Go 1.13 之前会导致其他 goroutine 饥饿
2
func busyLoop() {
3
    for {
4
        // 纯计算, 没有函数调用
5
        // 编译器不会插入栈检查代码
6
        // 永远不会被抢占!
7
    }
8
}

5.2 基于信号的抢占 (Go 1.14+)#

Go 1.14 引入了异步抢占（signal-based preemption），解决了协作抢占的缺陷：

sequenceDiagram participant S as sysmon participant M as M (OS Thread) participant P as Signal Handler participant G as 被抢占的 G Note over S: 检测到 G 运行时间过长 S->>M: 发送 SIGURG 信号 M->>P: 信号处理器 doSigPreempt P->>P: 修改 G 的 PC P->>P: 插入 asyncPreempt 调用 P->>G: 从信号处理器返回 G->>G: 执行 asyncPreempt() G->>G: gopreempt_m() → schedule() Note over G: G 被放回运行队列

源码实现：

1
// src/runtime/signal_unix.go - 简化
2
func doSigPreempt(gp *g, ctxt *sigctxt) {
3
    // 检查是否可以抢占
4
    if wantAsyncPreempt(gp) {
5
        // 修改 G 的执行上下文
6
        // 在信号返回后执行 asyncPreempt
7
        ctxt.pushCall(funcPC(asyncPreempt))
8
    }
9
}
10

11
// src/runtime/preempt.go - 简化
12
func asyncPreempt() {
13
    gp := getg()
14
    // 保存当前 G 的完整上下文
15
    // 然后调用 gopreempt_m
16
    gopreempt_m(gp)
17
}
18

19
// src/runtime/proc.go - 简化
20
func gopreempt_m(gp *g) {
21
    // 将 G 放回全局运行队列
22
    casgstatus(gp, _Grunning, _Grunnable)
23
    globrunqput(gp)
24
    // 触发新的调度
25
    schedule()
26
}

异步抢占的完整流程：

1
sysmon 检测到 G 运行超过 10ms
2
        │
3
        ▼
4
发送 SIGURG 信号到目标 M
5
        │
6
        ▼
7
M 的信号处理器被触发
8
(sighandler → doSigPreempt)
9
        │
10
        ▼
11
修改 G 的寄存器上下文
12
(将 PC 指向 asyncPreempt)
13
        │
14
        ▼
15
信号处理器返回, M 继续执行
16
        │
17
        ▼
18
G 执行 asyncPreempt()
19
        │
20
        ▼
21
保存上下文 → gopreempt_m()
22
        │
23
        ▼
24
G 被放入全局队列
25
        │
26
        ▼
27
schedule() 选择下一个 G

六、调度器初始化#

6.1 schedinit#

程序启动时，运行时初始化调度器。入口在 src/runtime/proc.go：

1
// src/runtime/proc.go - 简化
2
func schedinit() {
3
    // 栈、内存分配器、GC 初始化...
4

5
    // GOMAXPROCS: 默认等于 CPU 核心数
6
    procs := ncpu
7
    if n := atoi32(gogetenv("GOMAXPROCS")); n > 0 {
8
        procs = n
9
    }
10
    if procs > _MaxGomaxprocs {
11
        procs = _MaxGomaxprocs
12
    }
13

14
    // 创建所有 P
15
    procresize(procs)
16
}

6.2 procresize#

1
// src/runtime/proc.go - 简化
2
func procresize(nprocs int32) *p {
3
    // 1. 初始化所有 P
4
    for i := int32(0); i < nprocs; i++ {
5
        pp := allp[i]
6
        if pp == nil {
7
            pp = new(p)
8
        }
9
        pp.status = _Pgcstop
10
        pp.id = i
11
        pp.runqtail = 0
12
        pp.runqhead = 0
13

14
        // 分配 G 的缓存
15
        pp.gFree.n = 0
16
    }
17

18
    // 2. 多余的 P 上的 G 移到全局队列
19
    for i := nprocs; i < old; i++ {
20
        p := allp[i]
21
        // 将 P 本地队列的 G 放入全局队列
22
        for p.runqtail != p.runqhead {
23
            gp := p.runq[p.runqhead%uint32(len(p.runq))]
24
            globrunqput(gp)
25
        }
26
        // 释放 P
27
        p.status = _Pdead
28
    }
29

30
    // 3. 将空闲 P 放入空闲列表
31
    var ppList pListNode
32
    for i := nprocs - 1; i >= 0; i-- {
33
        p := allp[i]
34
        if p.status != _Pidle {
35
            continue
36
        }
37
        pidleput(p)
38
    }
39

40
    return allp[0] // 返回 P0 给 m0
41
}

1
初始化流程:
2
┌─────────────────────────────────────────────────────┐
3
│                    schedinit()                        │
4
├─────────────────────────────────────────────────────┤
5
│ 1. 确定GOMAXPROCS (默认=CPU核心数)                   │
6
│ 2. procresize(nprocs)                                │
7
│    ├── 创建 nprocs 个 P                              │
8
│    ├── P0 绑定 m0                                    │
9
│    └── P1..Pn 放入空闲列表                           │
10
│ 3. 创建 main goroutine                              │
11
│    └── runtime.main → 用户 main()                    │
12
│ 4. 启动 sysmon 后台线程                              │
13
└─────────────────────────────────────────────────────┘

七、全局运行队列与 P 本地队列#

7.1 两级队列架构#

flowchart TB subgraph "全局运行队列 (需要加锁)" GQ["[G1] [G2] [G3] [G4] [G5] ..."] end subgraph "P0" P0Q["本地队列: [G10][G11][G12]"] P0N["runnext: G13"] end subgraph "P1" P1Q["本地队列: [G20][G21]"] P1N["runnext: G22"] end GQ -.->|"每61次调度取1个"| P0Q GQ -.->|"窃取"| P1Q

7.2 队列容量#

1
本地队列:
2
  固定大小 256 个 G (环形缓冲区)
3
  runnext: 1 个优先 G
4
  总计: 最多 257 个 G/P
5

6
全局队列:
7
  无固定限制
8
  通过 sched.runqsize 和 sched.runq 管理
9

10
队列溢出处理:
11
  本地队列满 → 移一半 (128个) 到全局队列

7.3 调度优先级#

1
获取 G 的优先级 (从高到低):
2

3
1. runnext (最优先执行的 G)
4
   ↑ go func() 创建的 G 优先放在这里
5
   │
6

7
2. 本地队列 runq[0..255]
8
   ↑ FIFO 顺序取出
9
   │
10

11
3. 全局队列 (每61次调度检查一次)
12
   ↑ 防止全局队列的 G 饥饿
13
   │
14

15
4. netpoll (网络就绪的 G)
16
   │
17

18
5. Work Stealing (从其他 P 窃取)
19
   │
20

21
6. 休眠

八、系统监控 (sysmon)#

8.1 sysmon 的职责#

sysmon 是一个不需要 P 就能运行的后台线程（M），负责多项监控任务：

1
// src/runtime/proc.go - 简化
2
func sysmon() {
3
    // sysmon 不绑定 P, 独立运行
4
    idleshift := 0
5
    idle := 0
6
    delay := uint32(0)
7

8
    for {
9
        // 动态调整休眠时间
10
        if idle == 0 {
11
            delay = 20 // 初始 20μs
12
        } else if idle > 50 {
13
            delay *= 2 // 最长 10ms
14
        }
15
        if delay > 10*1000 {
16
            delay = 10 * 1000
17
        }
18
        usleep(delay)
19

20
        // 1. 释放闲置超过 5 分钟的 span (内存回收)
21
        if t := (gcTrigger{kind: gcTriggerTime, now: now}); t.test() {
22
            gcStart(t)
23
        }
24

25
        // 2. 检查是否需要强制 GC
26
        lastgc := sched.lastgc.Load()
27
        if lastgc != 0 && now-lastgc > forcegcperiod {
28
            // 2 分钟未触发 GC, 强制触发
29
            forcegc.idle = false
30
            wakep()
31
        }
32

33
        // 3. 网络轮询
34
        if netpollinited() {
35
            gp := netpoll(false)
36
            injectglist(gp)
37
        }
38

39
        // 4. 抢占长时间运行的 G
40
        retake(now)
41

42
        // 5. 唤醒沉睡的 M
43
        if sched.npidle.Load() != 0 && sched.nmsys.Load() != 0 {
44
            wakep()
45
        }
46
    }
47
}

flowchart TB A[sysmon 后台线程] --> B[检查间隔: 20μs ~ 10ms] B --> C[1. 释放闲置内存] B --> D[2. 强制 GC (2min)] B --> E[3. netpoll] B --> F[4. retake 抢占] B --> G[5. 唤醒空闲 M]

8.2 retake 抢占#

retake 负责两件事：夺取长时间系统调用的 P，和抢占长时间运行的 G：

1
retake 检查逻辑:
2
┌──────────────────────────────────────────┐
3
│ for 每个 P:                               │
4
│   if P.status == _Psyscall:              │
5
│     if 系统调用 > 20μs:                   │
6
│       handoffp(P)  → 夺取 P 给其他 M     │
7
│                                          │
8
│   if P.status == _Prunning:              │
9
│     if G 运行 > 10ms:                    │
10
│       preemptone(P) → 发送 SIGURG 信号   │
11
└──────────────────────────────────────────┘

九、网络轮询器 (netpoller)#

9.1 netpoll 与调度器的协作#

Go 的网络 I/O 使用非阻塞 I/O + epoll/kqueue 实现。当 goroutine 执行网络 I/O 时，如果数据没准备好，goroutine 会被挂起，等到数据就绪后再被唤醒：

sequenceDiagram participant G as Goroutine participant R as Runtime participant N as netpoll (epoll) participant S as sysmon G->>R: net.Read(fd) R->>N: epoll_ctl(ADD, fd, EPOLLIN) R->>R: gopark() 挂起 G Note over G: G 状态变为 _Gwaiting Note over N: 等待数据就绪... S->>N: sysmon: netpoll(false) N-->>S: 返回就绪的 G 列表 S->>R: injectglist() 唤醒 G Note over G: G 状态变为 _Grunnable R->>G: schedule() 调度执行 G->>G: 继续执行 net.Read 后的代码

9.2 netpoll 实现原理#

1
网络 I/O 流程:
2
┌────────────────────────────────────────────────────┐
3
│ G1: conn.Read(buf)                                 │
4
│   ├── 设置 fd 为非阻塞                             │
5
│   ├── read() → EAGAIN (数据未就绪)                 │
6
│   ├── epoll_ctl(EPOLL_CTL_ADD, fd, EPOLLIN)        │
7
│   ├── gopark(netpollblock)                         │
8
│   │   └── G1 状态: _Gwaiting                       │
9
│   └── 等待...                                      │
10
│                                                    │
11
│ [内核] 数据到达, 触发 epoll 事件                    │
12
│                                                    │
13
│ sysmon / schedule:                                 │
14
│   ├── netpoll(false)                               │
15
│   │   └── epoll_wait() → 返回就绪的 fd 列表        │
16
│   ├── 找到对应的 G1                                │
17
│   └── goready(G1) → 放入运行队列                   │
18
│                                                    │
19
│ G1 被调度:                                         │
20
│   └── 继续执行 read() → 成功读取数据               │
21
└────────────────────────────────────────────────────┘

十、调度器性能分析#

10.1 调度延迟追踪#

Go 提供了调度器追踪工具：

1
# 开启调度器追踪
2
GODEBUG=schedtrace=1000 ./myapp
3

4
# 输出示例 (每秒一次):
5
# SCHED 1000ms: gomaxprocs=8
6
#   threads=12 spinning=0 idle=0
7
#   P0:  runq=3 [G1 G2 G3]  gfreecnt=5
8
#   P1:  runq=1 [G4]        gfreecnt=2
9
#   ...
10
#   global runq: 10
11
#   idleprocs=0 idlethreads=2

10.2 常见性能问题#

1
┌───────────────────┬────────────────────┬──────────────────────────┐
2
│ 问题               │ 现象               │ 解决方案                 │
3
├───────────────────┼────────────────────┼──────────────────────────┤
4
│ G 数量过多         │ 调度开销大         │ 使用 worker pool 限制    │
5
│ G 阻塞在系统调用   │ M 被占用           │ Hand Off 自动处理        │
6
│ 锁竞争             │ M 自旋等待         │ 减少 shared state        │
7
│ GOMAXPROCS 过小   │ CPU 利用率低       │ 增大到 CPU 核心数        │
8
│ 内存不足           │ GC 频繁,暂停长     │ 减少内存分配             │
9
└───────────────────┴────────────────────┴──────────────────────────┘

10.3 GOMAXPROCS 调优#

1
import "runtime"
2

3
func init() {
4
    // 默认值: CPU 核心数
5
    // CPU 密集型: 设置为 CPU 核心数
6
    // I/O 密集型: 可以适当增大
7
    runtime.GOMAXPROCS(runtime.NumCPU())
8
}

1
GOMAXPROCS 对调度的影响:
2

3
GOMAXPROCS=1:
4
  只有 1 个 P
5
  所有 G 串行执行
6
  适合调试竞态条件
7

8
GOMAXPROCS=CPU核心数 (默认):
9
  充分利用多核
10
  Work Stealing 更高效
11

12
GOMAXPROCS > CPU核心数:
13
  可能增加上下文切换开销
14
  通常不推荐

总结#

GMP 模型全景#

flowchart TB subgraph "用户代码" A["go func()"] --> B["newproc()"] end subgraph "调度器" B --> C["放入 P 本地队列"] C --> D["schedule()"] D --> E{"查找 G"} E --> F["runnext"] E --> G["本地队列"] E --> H["全局队列"] E --> I["netpoll"] E --> J["Work Stealing"] end subgraph "执行" K["execute(G)"] --> L["gogo() 切换栈"] L --> M["运行用户代码"] M --> N{"发生什么?"} N -->|函数调用| O["协作抢占检查"] N -->|系统调用| P["entersyscall()"] N -->|channel/IO| Q["gopark()"] N -->|运行过久| R["SIGURG 信号抢占"] O --> D P --> S["Hand Off"] Q --> T["放入等待队列"] R --> D S --> D T -->|唤醒| D end

核心要点#

GMP 模型：G (goroutine)、M (OS 线程)、P (逻辑处理器) 三层抽象
Work Stealing：空闲 P 从忙碌 P 窃取 G，均衡负载
Hand Off：系统调用阻塞 M 时，P 绑定到新 M 继续工作
两级队列：P 本地队列（无锁）+ 全局队列（有锁），减少竞争
异步抢占：基于 SIGURG 信号的抢占解决了协作抢占无法处理纯计算循环的问题
sysmon：后台监控线程负责抢占、GC 触发、netpoll、资源回收

常见问题#

Q1：goroutine 和线程的区别是什么？#

goroutine 是用户态的轻量级线程。创建一个 goroutine 只需要 2KB 栈空间（线程通常 1-8MB），goroutine 的创建、切换和销毁都在用户态完成，不需要陷入内核。Go 调度器将 M 个 goroutine 调度到 N 个 OS 线程上执行（M 模型），而传统线程是 1:1 映射。