LLM Fine-tuning 基础详解

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

481 字

1 分钟

LLM Fine-tuning 基础详解

2025-08-17

AI

微调

/

LLM

一、为什么需要 Fine-tuning#

1.0 Fine-tuning 技术全景#

flowchart TB subgraph Pretrain[" 预训练阶段"] direction LR P1["大规模语料"] --> P2["自监督学习"] --> P3["通用语言模型"] end subgraph SFT[" SFT 有监督微调"] direction LR S1["指令数据"] --> S2["监督训练"] --> S3["任务执行能力"] end subgraph Alignment[" 对齐阶段"] direction LR A1["偏好数据"] --> A2["RLHF/DPO"] --> A3["人类偏好对齐"] end subgraph PEFT[" 参数高效微调 PEFT"] direction TB PEFT1["LoRA<br/>低秩适应"] PEFT2["QLoRA<br/>量化+LoRA"] PEFT3["Adapter<br/>适配器层"] PEFT4["PTuning<br/>可学习提示"] end Pretrain --> SFT --> Alignment SFT -.->|"降低成本"| PEFT style Pretrain fill:#e3f2fd style SFT fill:#fff8e1 style Alignment fill:#e8f5e9 style PEFT fill:#f3e5f5

1.1 预训练模型的局限#

graph TB subgraph "预训练模型问题" A["知识截止"] B["通用能力强，专业能力弱"] C["输出格式不固定"] D["领域术语理解差"] end subgraph "Fine-tuning 解决" E["注入新知识"] F["强化专业能力"] G["格式化输出"] H["理解领域术语"] end A --> E B --> F C --> G D --> H

能力维度	预训练模型	Fine-tuned 模型
通用对话	强	保持或更强
领域知识	薄弱	深入
任务专精	泛化	精准
输出格式	不稳定	一致

1.2 Fine-tuning vs Prompt Engineering#

1
# Prompt Engineering 方式
2
prompt = """
3
你是一个金融分析师。请分析以下财报：
4

5
财报内容：{financial_report}
6

7
请按以下格式输出：
8
1. 营收分析：
9
2. 利润分析：
10
3. 风险提示：
11
"""
12

13
response = llm.generate(prompt)

1
# Fine-tuning 方式
2
# 训练数据示例
3
training_data = [
4
    {
5
        "messages": [
6
            {"role": "system", "content": "你是一个专业的金融分析师。"},
7
            {"role": "user", "content": "分析这份财报：{report_1}"},
8
            {"role": "assistant", "content": "1. 营收分析：...\n2. 利润分析：...\n3. 风险提示：..."}
9
        ]
10
    }
11
]
12

13
# Fine-tune 后的模型直接理解任务
14
response = llm.generate("分析这份财报：{report_new}")

二、全量微调 vs 参数高效微调#

2.1 对比概览#

特性	全量微调	LoRA	QLoRA	PTuning
参数量	100%	0.1-1%	0.1-1%	0.1-5%
显存需求	极高（FP16）	中等	低	中等
训练速度	慢	快	较快	快
效果	最好	接近全量	略低于 LoRA	视任务而定
灾难性遗忘	严重	较轻	较轻	较轻

2.2 训练成本对比#

1
# 不同微调方法的显存估算
2
def estimate_vram(model_size_b: float, method: str, batch_size: int = 1):
3
    """
4
    模型大小单位：Billions 参数
5
    """
6
    # 基础模型显存
7
    base_vram = model_size_b * 2  # FP16
8

9
    if method == "full":
10
        # 全量微调：模型 + 梯度 + 优化器 + 激活值
11
        return base_vram * 4 + batch_size * model_size_b * 2
12

13
    elif method == "lora":
14
        # LoRA：只更新 LoRA 参数
15
        lora_params = model_size_b * 0.01  # ~1%
16
        return base_vram + lora_params * 2 + batch_size * model_size_b * 0.1
17

18
    elif method == "qlora":
19
        # QLoRA：NF4 量化 + LoRA
20
        base_vram = model_size_b * 0.5  # 4-bit 量化
21
        lora_params = model_size_b * 0.01
22
        return base_vram + lora_params * 2 + batch_size * model_size_b * 0.05
23

24
    elif method == "ptuning":
25
        # PTuning：只训练 prompt embedding 和 MLP
26
        prompt_params = model_size_b * 0.001
27
        return base_vram + prompt_params * 2 + batch_size * model_size_b * 0.1

三、LoRA 原理详解#

3.1 LoRA 核心思想#

graph TB subgraph "原始权重" A["W ∈ R(d×k)"] --> B["前向传播"] end subgraph "LoRA 改造" C["W₀ ∈ R(d×k)"] --> D["冻结"] E["A ∈ R(r×k)"] --> F["训练"] G["B ∈ R(d×r)"] --> F F --> H["W₀ + BA"] end H --> B

LoRA 的核心思想：冻结预训练权重 W₀，只训练低秩矩阵 A 和 B。

1
# LoRA 核心公式
2
class LoRALinear(torch.nn.Module):
3
    def __init__(self, original_layer, rank: int = 4, alpha: float = 1.0):
4
        super().__init__()
5
        self.original = original_layer
6
        self.original.weight.requires_grad = False  # 冻结
7

8
        # LoRA 参数
9
        d, k = original_layer.weight.shape
10
        self.rank = rank
11
        self.alpha = alpha
12

13
        # A: 随机初始化（先用随机小值）
14
        self.lora_A = torch.nn.Parameter(torch.randn(rank, k) * 0.01)
15
        # B: 零初始化（保证初始时与原模型一致）
16
        self.lora_B = torch.nn.Parameter(torch.zeros(d, rank))
17

18
    def forward(self, x):
19
        # 原模型输出
20
        original_output = self.original(x)
21

22
        # LoRA 增量
23
        lora_output = (x @ self.lora_A.T @ self.lora_B.T) * (self.alpha / self.rank)
24

25
        return original_output + lora_output

3.2 LoRA 代码实现#

1
from peft import LoraConfig, get_peft_model, TaskType
2

3
# LoRA 配置
4
lora_config = LoraConfig(
5
    task_type=TaskType.CAUSAL_LM,  # 任务类型
6
    r=8,                             # 秩（rank）
7
    lora_alpha=16,                   # 缩放因子
8
    lora_dropout=0.05,               # Dropout
9
    target_modules=[                  # 应用 LoRA 的模块
10
        "q_proj", "v_proj",          # Attention
11
        "k_proj", "o_proj",
12
        "gate_proj", "up_proj", "down_proj"  # FFN
13
    ],
14
    bias="none",                      # 不训练 bias
15
)
16

17
# 将 LoRA 应用到模型
18
model = get_peft_model(base_model, lora_config)
19
model.print_trainable_parameters()
20
# 输出：trainable params: 4,194,304 || all_params: 6,738,415,616 || trainable%: 0.062

3.3 LoRA 超参数调优#

超参数	建议值	说明
r	4-16	越大表达能力越强，但参数量增加
alpha	2 × r	缩放因子，控制 LoRA 影响程度
dropout	0.05-0.1	防止过拟合
target	q,v + FFN	至少包含 q_proj 和 v_proj

1
# LoRA 超参数搜索
2
lora_experiments = [
3
    {"r": 4, "alpha": 8, "target": ["q_proj", "v_proj"]},
4
    {"r": 8, "alpha": 16, "target": ["q_proj", "v_proj", "k_proj"]},
5
    {"r": 16, "alpha": 32, "target": ["q_proj", "v_proj", "k_proj", "o_proj"]},
6
    {"r": 8, "alpha": 16, "target": "all-linear"},  # 所有线性层
7
]

四、QLoRA 量化微调#

4.1 QLoRA 核心思想#

graph TB subgraph "量化流程" A["FP16 模型"] --> B["NF4 量化"] B --> C["分块量化"] C --> D["Double Quantization"] end subgraph "LoRA 应用" D --> E["加载 NF4 模型"] E --> F["添加 LoRA adapter"] F --> G["训练时反量化"] end

QLoRA = 量化 + LoRA，通过 NF4 量化大幅降低显存，LoRA 保持训练效果。

1
from bitsandbytes import BitsAndBytesConfig
2

3
# QLoRA 配置
4
bnb_config = BitsAndBytesConfig(
5
    # NF4 量化（4-bit NormalFloat）
6
    load_in_4bit=True,
7
    bnb_4bit_quant_type="nf4",
8
    # 双重量化
9
    bnb_4bit_use_double_quant=True,
10
    # 计算dtype
11
    bnb_4bit_compute_dtype=torch.bfloat16,
12
)
13

14
# 加载量化模型
15
model = AutoModelForCausalLM.from_pretrained(
16
    model_name,
17
    quantization_config=bnb_config,
18
    device_map="auto"
19
)

4.2 NF4 量化原理#

1
class NF4Quantizer:
2
    """
3
    NF4 (4-bit NormalFloat) 量化
4
    核心思想：数据分布近似正态时，NF4 比普通 4-bit 量化更优
5
    """
6
    def __init__(self):
7
        # NF4 的 16 个量化中心（对应 4-bit = 16 个值）
8
        self.quant_centers = self._get_nf4_centers()
9

10
    def _get_nf4_centers(self):
11
        """NF4 量化中心（基于正态分布分位数）"""
12
        import scipy.stats as stats
13
        # 8 个正值 + 8 个负值（对称）
14
        positive = [stats.norm.ppf((i + 0.5) / 16) for i in range(8)]
15
        negative = [-p for p in positive]
16
        return sorted(negative + positive)
17

18
    def quantize(self, tensor: torch.Tensor):
19
        """量化到 NF4"""
20
        flat = tensor.flatten()
21
        quantized = torch.zeros_like(flat, dtype=torch.uint8)
22

23
        for i, val in enumerate(flat):
24
            # 找最近的量化中心
25
            distances = [abs(val - c) for c in self.quant_centers]
26
            quantized[i] = argmin(distances)
27

28
        return quantized
29

30
    def dequantize(self, quantized, shape):
31
        """反量化"""
32
        flat = quantized.flatten()
33
        return torch.tensor([
34
            self.quant_centers[q] for q in flat
35
        ]).reshape(shape)

五、PTuning 与 Prompt Tuning#

5.1 PTuning 原理#

graph LR A["Input Tokens"] --> B["可学习的 Prompt Embedding"] B --> C["MLP 投影"] C --> D["拼接的 Prompt"] D --> E["Transformer"]

PTuning：只训练 Prompt Embedding 和一个小型 MLP 投影层，冻结全部模型参数。

1
from peft import PromptTuningConfig, PromptTuningInit
2

3
# PTuning 配置
4
ptuning_config = PromptTuningConfig(
5
    task_type=TaskType.CAUSAL_LM,
6
    prompt_tuning_init=PromptTuningInit.TEXT,  # 或 RANDOM
7
    prompt_tuning_init_text="请用专业的方式回答用户问题：",  # 初始 prompt
8
    num_virtual_tokens=20,  # 虚拟 token 数量
9
    embedding_projection_dim=1024,
10
)

5.2 P-Tuning v2#

1
# P-Tuning v2：在每层都添加 learnable prefix
2
ptuning_v2_config = PromptTuningConfig(
3
    task_type=TaskType.CAUSAL_LM,
4
    num_virtual_tokens=16,
5
    num_layers=32,  # 参与的所有层数
6
    num_heads=12,
7
    hidden_size=768,
8
)

六、训练技巧与注意事项#

6.1 数据准备#

1
# 数据格式转换
2
def prepare_training_data(raw_data: list, tokenizer) -> list:
3
    """将对话数据转换为训练格式"""
4
    formatted = []
5

6
    for item in raw_data:
7
        # 拼接对话
8
        text = ""
9
        for msg in item["messages"]:
10
            if msg["role"] == "system":
11
                text += f"系统：{msg['content']}\n"
12
            elif msg["role"] == "user":
13
                text += f"用户：{msg['content']}\n"
14
            elif msg["role"] == "assistant":
15
                text += f"助手：{msg['content']}\n"
16

17
        # Tokenize
18
        encoding = tokenizer(
19
            text,
20
            truncation=True,
21
            max_length=2048,
22
            padding="max_length"
23
        )
24

25
        formatted.append({
26
            "input_ids": encoding["input_ids"],
27
            "attention_mask": encoding["attention_mask"],
28
            "labels": encoding["input_ids"].copy()
29
        })
30

31
    return formatted
32

33
# 数据清洗检查
34
data_quality_checks = {
35
    "max_length": "不超过模型上下文限制",
36
    "min_length": "过滤过于简短的样本",
37
    "dedup": "去除重复数据",
38
    "format": "确保对话格式完整（user/assistant 配对）",
39
    "lang": "确保目标语言一致"
40
}

6.2 训练配置建议#

1
from transformers import TrainingArguments
2

3
training_args = TrainingArguments(
4
    # 基础配置
5
    output_dir="./output",
6
    num_train_epochs=3,
7
    per_device_train_batch_size=4,
8
    gradient_accumulation_steps=4,  # 伪 batch = 16
9

10
    # 优化器配置
11
    optim="paged_adamw_32bit",  # 节省显存
12
    learning_rate=2e-4,
13
    weight_decay=0.001,
14

15
    # 学习率调度
16
    lr_scheduler_type="cosine",
17
    warmup_ratio=0.03,
18

19
    # 显存优化
20
    gradient_checkpointing=True,  # 用计算换显存
21
    fp16=False,
22
    bf16=True,  # A100 支持 bf16
23

24
    # 日志与保存
25
    logging_steps=10,
26
    save_strategy="epoch",
27
    save_total_limit=3,
28

29
    # 其他
30
    remove_unused_columns=False,
31
    group_by_length=True,  # 相近长度打包加速
32
)

6.3 灾难性遗忘缓解#

1
class EWCRegularizer:
2
    """
3
    Elastic Weight Consolidation
4
    防止灾难性遗忘：对重要参数添加惩罚
5
    """
6
    def __init__(self, model, dataloader, fisher_diagonal=None):
7
        self.model = model
8
        self.fisher_diagonal = fisher_diagonal or self._compute_fisher(dataloader)
9
        self.params_old = {n: p.clone() for n, p in model.named_parameters()}
10

11
    def _compute_fisher(self, dataloader):
12
        """计算 Fisher Information Matrix 对角线"""
13
        fisher = {}
14
        for name, param in self.model.named_parameters():
15
            fisher[name] = torch.zeros_like(param)
16

17
        self.model.eval()
18
        for batch in dataloader:
19
            self.model.zero_grad()
20
            output = self.model(**batch)
21
            loss = output.loss
22
            loss.backward()
23

24
            for name, param in self.model.named_parameters():
25
                if param.grad is not None:
26
                    fisher[name] += param.grad.data ** 2
27

28
        # 归一化
29
        for name in fisher:
30
            fisher[name] /= len(dataloader)
31

32
        return fisher
33

34
    def penalty(self):
35
        """EWC 惩罚项"""
36
        loss = 0
37
        for name, param in self.model.named_parameters():
38
            loss += (self.fisher_diagonal[name] *
39
                    (param - self.params_old[name]) ** 2).sum()
40
        return loss

七、Fine-tuning 方法全景对比#

flowchart TB subgraph FullFinetune[" 全量微调"] direction TB F1["更新全部参数"] F2["显存需求最高"] F3["效果最佳"] F4["灾难性遗忘风险高"] F1 --> F2 --> F3 F3 --> F4 end subgraph LoRA[" LoRA"] direction TB L1["低秩矩阵分解"] L2["参数量 ~1%"] L3["效果接近全量"] L4["支持多 Adapter 切换"] L1 --> L2 --> L3 --> L4 end subgraph QLoRA[" QLoRA"] direction TB Q1["NF4 量化 + LoRA"] Q2["显存需求最低"] Q3["单卡可训练 7B"] Q4["效果略低于 LoRA"] Q1 --> Q2 --> Q3 --> Q4 end subgraph PTuning[" PTuning"] direction TB P1["可学习 Prompt"] P2["参数量最少"] P3["适合简单任务"] P4["推理需额外开销"] P1 --> P2 --> P3 --> P4 end style FullFinetune fill:#ffcccc style LoRA fill:#ccffcc style QLoRA fill:#ccccff style PTuning fill:#ffffcc

flowchart LR A["选择微调方法"] --> B{"显存限制?"} B -->|"< 10GB"| C["QLoRA"] B -->|"10-20GB"| D["LoRA"] B -->|"> 20GB"| E{"数据量?"} E -->|"< 1万条"| F["LoRA + PTuning"] E -->|"> 1万条"| G{"效果要求?"} G -->|"最高"| H["全量微调"] G -->|"良好"| D C --> I["单卡训练"] D --> J["推荐方案"] F --> K["快速验证"] H --> L["最佳效果"] style A fill:#e8eaf6 style C fill:#ccccff style D fill:#ccffcc style H fill:#ffcccc

八、总结#

方法	参数量	显存（7B）	适用场景
全量微调	100%	~48GB	数据量大、效果要求最高
LoRA	0.1-1%	~16GB	通用推荐，平衡效果与效率
QLoRA	0.1-1%	~8GB	显存受限，数据量中等
PTuning	0.01-0.1%	~12GB	简单任务、快速验证