RAG 优化策略深度解析

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

322 字

1 分钟

RAG 优化策略深度解析

2025-04-24

AI

RAG

/

AI

一、RAG 优化概述#

1.1 为什么需要 RAG 优化#

graph TB subgraph "基础 RAG 问题" A["检索质量差"] B["Context 冗余"] C["引用不准确"] D["幻觉依然存在"] end subgraph "优化方向" E["Query 改写"] F["混合检索"] G["智能重排"] H["Context 压缩"] end A --> E B --> F C --> G D --> H

问题类型	典型表现	优化策略
检索不到	关键词不匹配语义	Query 改写/扩展
检索太多	返回大量无关 Context	混合检索 + 重排序
Context 过长	超过模型上下文限制	Context 压缩/摘要
引用不准	答案与引用不匹配	引用追踪与验证

1.2 优化架构总览#

flowchart LR A["用户 Query"] --> B["Query 改写"] B --> C["混合检索"] C --> D["粗排召回"] D --> E["精排重排序"] E --> F["Context 组装"] F --> G["LLM 生成"] G --> H["引用验证"] H --> I["最终输出"]

二、Query 改写与扩展#

2.1 Query 改写策略#

1
class QueryRewriter:
2
    def __init__(self, llm):
3
        self.llm = llm
4

5
    def rewrite(self, query: str) -> str:
6
        """
7
        Query 改写核心策略：
8
        1. 隐式表述展开
9
        2. 同义词扩展
10
        3. 假设类型注入
11
        """
12
        prompts = [
13
            # 展开缩写和隐含概念
14
            f"将以下查询展开为完整表述：{query}",
15
            # 生成同义词变体
16
            f"提供查询的同义词表达：{query}",
17
        ]
18

19
        expanded = self.llm.batch_generate(prompts)
20

21
        # 合并改写结果
22
        return self._merge_rewrite(query, expanded)
23

24
    def _merge_rewrite(self, original: str, rewrites: list) -> str:
25
        # 去重合并
26
        variants = list(set([original] + rewrites))
27
        return " | ".join(variants)

2.2 HyDE 假设文档#

1
# HyDE (Hypothetical Document Embeddings)
2
class HyDERetriever:
3
    def __init__(self, llm, vector_store):
4
        self.llm = llm
5
        self.vector_store = vector_store
6

7
    def retrieve(self, query: str, top_k: int = 5):
8
        """
9
        HyDE 核心思想：
10
        1. 让 LLM 生成假设性答案
11
        2. 用假设答案去检索（而非原始 Query）
12
        3. 假设答案与真实文档更匹配
13
        """
14
        # 1. 生成假设答案
15
        hypothetical_doc = self.llm.generate(
16
            f"假设你是专家，请给出以下问题的详细答案：\n{query}"
17
        )
18

19
        # 2. 用假设答案检索
20
        results = self.vector_store.similarity_search(
21
            hypothetical_doc,
22
            top_k
23
        )
24

25
        # 3. 额外用原始 Query 检索
26
        original_results = self.vector_store.similarity_search(
27
            query,
28
            top_k
29
        )
30

31
        # 4. 融合结果
32
        return self._fusion_results(results, original_results)
33

34
    def _fusion_results(self, hyde_results, original_results, k=60):
35
        """RRF 融合"""
36
        scores = {}
37
        for i, doc in enumerate(hyde_results):
38
            scores[doc.id] = scores.get(doc.id, 0) + 1 / (k + i + 1)
39
        for i, doc in enumerate(original_results):
40
            scores[doc.id] = scores.get(doc.id, 0) + 1 / (k + i + 1)
41

42
        return sorted(scores.items(), key=lambda x: -x[1])[:top_k]

2.3 Query 扩展技术#

1
class QueryExpander:
2
    def expand(self, query: str) -> list[str]:
3
        """
4
        多角度 Query 扩展
5
        """
6
        expansions = []
7

8
        # 1. 核心词提取 + 同义词
9
        core_terms = self._extract_core_terms(query)
10
        for term in core_terms:
11
            synonyms = self._get_synonyms(term)
12
            for syn in synonyms:
13
                expansions.append(query.replace(term, syn))
14

15
        # 2. 下位词扩展（具体化）
16
        hyponyms = self._get_hyponyms(core_terms)
17
        for hypo in hyponyms:
18
            expansions.append(f"{query} {hypo}")
19

20
        # 3. 上位词扩展（泛化）
21
        hypernyms = self._get_hypernyms(core_terms)
22
        for hyper in hypernyms:
23
            expansions.append(query.replace(core_terms[0], hyper))
24

25
        return list(set(expansions))
26

27
    def _get_synonyms(self, term: str) -> list:
28
        """使用词向量找相似词"""
29
        term_vec = self.embedder.encode([term])
30
        similar = self.vector_index.search(term_vec, top_k=5)
31
        return [s for s in similar if s != term]

三、混合检索策略#

3.1 混合检索架构#

graph TB A["Query"] --> B["向量检索"] A --> C["BM25 检索"] A --> D["稀疏检索"] A --> E["密集检索"] B --> F["向量结果集"] C --> G["BM25 结果集"] D --> H["稀疏结果集"] E --> I["密集结果集"] F --> J["结果融合"] G --> J H --> J I --> J J --> K["RRF 融合"] K --> L["Top-K 召回"]

3.2 BM25 + 向量混合#

1
class HybridRetriever:
2
    def __init__(self, vector_store, bm25_index):
3
        self.vector_store = vector_store
4
        self.bm25_index = bm25_index
5

6
    def retrieve(self, query: str, top_k: int = 10):
7
        # 1. 向量检索
8
        vector_results = self.vector_store.search(
9
            self.embed(query),
10
            top_k * 2
11
        )
12

13
        # 2. BM25 检索
14
        bm25_results = self.bm25_index.search(
15
            query,
16
            top_k * 2
17
        )
18

19
        # 3. RRF 融合
20
        fused = self._rrf_fusion(
21
            [vector_results, bm25_results],
22
            k=60
23
        )
24

25
        return fused[:top_k]
26

27
    def _rrf_fusion(self, result_lists: list, k: int = 60) -> list:
28
        """Reciprocal Rank Fusion"""
29
        scores = {}
30
        for results in result_lists:
31
            for i, doc in enumerate(results):
32
                doc_id = doc.id
33
                scores[doc_id] = scores.get(doc_id, 0) + 1 / (k + i + 1)
34

35
        return sorted(scores.items(), key=lambda x: -x[1])

3.3 稀疏检索与密集检索#

1
# SPLADE 稀疏检索
2
class SPLADERetriever:
3
    def __init__(self, model):
4
        self.model = model
5
        self.model.eval()
6

7
    def encode(self, text: str) -> dict:
8
        """
9
        SPLADE 输出稀疏向量（词权重）
10
        例如：{"python": 2.5, "编程": 1.8, "语言": 0.9}
11
        """
12
        with torch.no_grad():
13
            outputs = self.model(**self.tokenizer(text))
14
            weights = torch.max(
15
                torch.log(1 + torch.relu(outputs.logits)),
16
                dim=-1
17
            )
18

19
        # 转换为稀疏表示
20
        sparse_vec = {}
21
        for idx, weight in weights[0].items():
22
            if weight > 0.01:
23
                sparse_vec[self.tokenizer.decode([idx])] = weight.item()
24

25
        return sparse_vec
26

27
    def search(self, query: str, documents: list, top_k: int):
28
        """稀疏向量点积"""
29
        query_vec = self.encode(query)
30

31
        scores = []
32
        for doc in documents:
33
            doc_vec = self.encode(doc)
34
            score = sum(
35
                query_vec.get(k, 0) * v
36
                for k, v in doc_vec.items()
37
            )
38
            scores.append((doc, score))
39

40
        return sorted(scores, key=lambda x: -x[1])[:top_k]

四、重排序与精排#

4.1 交叉编码器重排#

graph LR A["Query"] --> B["粗排结果 (100)"] B --> C["交叉编码器"] C --> D["精排结果 (10)"] D --> E["LLM 生成"]

1
class CrossEncoderReranker:
2
    def __init__(self, model_name: str = "cross-encoder/ms-marco"):
3
        self.model = AutoModelForSequenceClassification.from_pretrained(
4
            model_name
5
        )
6
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
7

8
    def rerank(self, query: str, documents: list, top_k: int = 10):
9
        """
10
        交叉编码器：对 Query-Doc 对进行精细打分
11
        """
12
        # 构建 Query-Doc 对
13
        pairs = [(query, doc.content) for doc in documents]
14

15
        # 批量编码
16
        inputs = self.tokenizer(
17
            pairs,
18
            padding=True,
19
            truncation=True,
20
            max_length=512,
21
            return_tensors="pt"
22
        )
23

24
        with torch.no_grad():
25
            scores = self.model(**inputs).logits.squeeze(-1)
26

27
        # 按分数排序
28
        ranked = sorted(
29
            zip(documents, scores.tolist()),
30
            key=lambda x: -x[1]
31
        )
32

33
        return [doc for doc, _ in ranked[:top_k]]

4.2 LLM 作为重排器#

1
class LLM Reranker:
2
    def __init__(self, llm):
3
        self.llm = llm
4

5
    def rerank_with_llm(self, query: str, documents: list, top_k: int = 5):
6
        """
7
        使用 LLM 进行语义重排
8
        """
9
        doc_context = "\n\n".join([
10
            f"文档 {i+1}:\n{doc.content}"
11
            for i, doc in enumerate(documents)
12
        ])
13

14
        prompt = f"""请根据以下文档与查询的相关性打分（1-10分）：
15

16
查询：{query}
17

18
{doc_context}
19

20
请按相关性从高到低排序，只返回文档编号（如：3,1,2,5,4）
21
"""
22

23
        response = self.llm.generate(prompt)
24

25
        # 解析排序结果
26
        order = self._parse_order(response)
27

28
        return [documents[i-1] for i in order[:top_k]]
29

30
    def _parse_order(self, response: str) -> list:
31
        """从 LLM 输出中解析排序"""
32
        import re
33
        numbers = re.findall(r'\d+', response)
34
        return [int(n) for n in numbers[:len(documents)]]

五、Context 压缩与摘要#

5.1 Context 压缩策略#

1
class ContextCompressor:
2
    def __init__(self, llm, max_tokens: int = 4000):
3
        self.llm = llm
4
        self.max_tokens = max_tokens
5

6
    def compress(self, query: str, documents: list) -> str:
7
        """
8
        Context 压缩策略：
9
        1. 相关性过滤
10
        2. 句子级别压缩
11
        3. 摘要替换
12
        """
13
        compressed = []
14
        current_tokens = 0
15

16
        for doc in documents:
17
            # 计算相关分数
18
            relevance = self._calc_relevance(query, doc)
19

20
            if relevance < 0.3:
21
                continue  # 跳过低相关文档
22

23
            # 提取关键句子
24
            key_sentences = self._extract_key_sentences(doc, query)
25

26
            doc_tokens = self._count_tokens(key_sentences)
27

28
            if current_tokens + doc_tokens > self.max_tokens:
29
                # 超出限制，尝试摘要
30
                remaining = self.max_tokens - current_tokens
31
                summary = self._summarize(doc, remaining)
32
                compressed.append(summary)
33
                break
34

35
            compressed.append(key_sentences)
36
            current_tokens += doc_tokens
37

38
        return "\n\n".join(compressed)
39

40
    def _extract_key_sentences(self, doc: Document, query: str) -> str:
41
        """提取与 Query 相关的关键句子"""
42
        sentences = doc.content.split("。")
43

44
        scored = []
45
        for sent in sentences:
46
            score = self._calc_relevance(query, sent)
47
            scored.append((sent, score))
48

49
        # 返回高相关句子
50
        top_sentences = sorted(scored, key=lambda x: -x[1])[:5]
51
        return "。".join([s for s, _ in top_sentences]) + "。"
52

53
    def _summarize(self, doc: Document, max_tokens: int) -> str:
54
        """对文档进行摘要"""
55
        prompt = f"""请用不超过 {max_tokens} 个词总结以下文档的核心内容：
56

57
{doc.content}
58

59
摘要："""
60
        return self.llm.generate(prompt)

5.2 信息密度排序#

1
class DensityBasedSelector:
2
    def select(self, query: str, documents: list, max_tokens: int) -> list:
3
        """
4
        基于信息密度的文档选择
5
        信息密度 = 相关内容长度 / 总长度
6
        """
7
        scored_docs = []
8

9
        for doc in documents:
10
            # 识别文档中与 Query 相关的段落
11
            relevant_segments = self._find_relevant_segments(doc, query)
12

13
            total_relevant = sum(len(seg) for seg in relevant_segments)
14
            density = total_relevant / len(doc.content)
15

16
            # 计算信息价值分
17
            info_score = density * math.log(len(doc.content) + 1)
18

19
            scored_docs.append((doc, info_score, relevant_segments))
20

21
        # 按信息价值排序
22
        scored_docs.sort(key=lambda x: -x[1])
23

24
        # 组装 Context
25
        selected = []
26
        current_tokens = 0
27

28
        for doc, score, segments in scored_docs:
29
            segment_text = "\n".join(segments)
30
            tokens = self._count_tokens(segment_text)
31

32
            if current_tokens + tokens > max_tokens:
33
                continue
34

35
            selected.append(segment_text)
36
            current_tokens += tokens
37

38
        return selected

六、引用追踪与验证#

6.1 引用标注系统#

1
class CitationTracker:
2
    def __init__(self):
3
        self.citations = []
4

5
    def extract_citations(self, answer: str, documents: list) -> dict:
6
        """
7
        从答案中提取引用标注并验证
8
        """
9
        # 1. 识别答案中的引用标记 [1], [2], etc.
10
        citation_pattern = r'\[(\d+)\]'
11
        matches = re.finditer(citation_pattern, answer)
12

13
        verified_citations = []
14
        for match in matches:
15
            doc_id = int(match.group(1))
16

17
            # 2. 验证引用是否与文档内容匹配
18
            doc = documents[doc_id - 1]
19
            is_valid = self._verify_citation(answer, doc)
20

21
            verified_citations.append({
22
                "id": doc_id,
23
                "document": doc,
24
                "valid": is_valid,
25
                "position": match.span()
26
            })
27

28
        return verified_citations
29

30
    def _verify_citation(self, answer: str, doc: Document) -> bool:
31
        """
32
        验证引用准确性：
33
        1. 答案中引用的具体事实是否在文档中
34
        2. 引用的上下文是否匹配
35
        """
36
        # 提取答案中的关键事实
37
        answer_facts = self._extract_facts(answer)
38

39
        # 检查事实是否在文档中
40
        for fact in answer_facts:
41
            if fact not in doc.content:
42
                return False
43

44
        return True

6.2 自引用验证#

1
class SelfCitationVerifier:
2
    def verify(self, answer: str, retrieved_docs: list) -> tuple[bool, str]:
3
        """
4
        验证答案是否只基于检索到的文档
5
        """
6
        # 1. 提取答案中的声明
7
        claims = self._extract_claims(answer)
8

9
        # 2. 检查每个声明是否可溯源
10
        unverified_claims = []
11
        for claim in claims:
12
            if not self._is_grounded(claim, retrieved_docs):
13
                unverified_claims.append(claim)
14

15
        if unverified_claims:
16
            warning = f"警告：以下内容无法溯源：{unverified_claims}"
17
            return False, warning
18

19
        return True, ""
20

21
    def _is_grounded(self, claim: str, docs: list) -> bool:
22
        """检查声明是否在文档中有依据"""
23
        for doc in docs:
24
            if claim in doc.content:
25
                return True
26
        return False

七、总结#

graph TB A["RAG 优化"] --> B["Query 层"] A --> C["检索层"] A --> D["排序层"] A --> E["生成层"] B --> B1["Query 改写"] B --> B2["HyDE"] B --> B3["Query 扩展"] C --> C1["向量检索"] C --> C2["BM25"] C --> C3["混合检索"] D --> D1["交叉编码器"] D --> D2["LLM 重排"] D --> D3["密度排序"] E --> E1["Context 压缩"] E --> E2["引用追踪"] E --> E3["答案验证"]

优化阶段	关键技术	预期收益
Query 层	改写/HyDE/扩展	检索召回率提升 20-40%
检索层	混合检索/RRF	平衡精确性与覆盖面
排序层	交叉编码器/LLM 重排	Top-K 准确率提升 30-50%
生成层	Context 压缩/引用追踪	幻觉减少 50%，引用准确率 90%