Agent 评估体系：如何衡量 Agent 的能力

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

1673 字

5 分钟

Agent 评估体系：如何衡量 Agent 的能力

2025-03-26

AI

/

Agent

/

工程实践

前言#

评估 Agent 是工程化的难题。Agent 的输出不像传统 API 有明确的对错，需要从任务完成、工具调用、成本效率多维度评估。本章将从定量指标、Benchmark 套件、A/B 测试框架到 LLM-as-Judge，系统讲解 Agent 评估的方法论和实现。

一、Agent 评估的特殊挑战#

1.1 评估难点#

难点	说明
任务开放性	没有标准答案
工具调用依赖	外部 API 不稳定
多步骤推理	中间步骤难追踪
幻觉风险	可能传播错误信息

1.2 评估维度#

graph radar title Agent 评估维度 axis[任务完成, 工具使用, 成本效率, 响应时间, 安全性]

1.3 评估的分类#

Agent 评估可以分为三大类，各自适用于不同阶段：

评估类型	执行时机	目的	示例
离线评估	开发/测试阶段	验证基本能力	Benchmark 跑分
在线评估	生产环境	监控真实表现	成功率、延迟监控
对比评估	迭代优化	A/B 实验决策	新旧版本对比

二、任务完成率评估#

2.1 定义完成标准#

1
@dataclass
2
class TaskResult:
3
    task_id: str
4
    user_intent: str
5
    agent_response: str
6
    tools_used: list[str]
7
    completed: bool  # 人工标注
8
    partial_completed: bool
9

10
    # 自动指标
11
    intent_match_score: float  # 0-1
12
    key_points_covered: list[str]

2.2 自动化评估指标#

1
def evaluate_task_completion(result: TaskResult) -> dict:
2
    """自动化评估指标"""
3
    metrics = {
4
        # 1. 关键实体覆盖
5
        "entity_recall": len(result.covered_entities) / len(result.required_entities),
6

7
        # 2. 意图匹配
8
        "intent_match": result.intent_match_score,
9

10
        # 3. 工具调用准确率
11
        "tool_accuracy": sum(result.correct_tool_calls) / len(result.tool_calls),
12

13
        # 4. 幻觉检测
14
        "hallucination_score": 1 - detect_hallucination_rate(result.response)
15
    }
16
    return metrics

2.3 任务完成率的量化公式#

精确量化 Agent 的任务完成能力需要综合多个指标：

$\text{Task Score} = w_1 \cdot \text{Intent Match} + w_2 \cdot \text{Entity Recall} + w_3 \cdot \text{Tool Accuracy} + w_4 \cdot \text{Factuality}$

其中各权重可根据业务场景调整：

1
@dataclass
2
class TaskScoreWeights:
3
    """不同场景的权重配置"""
4
    intent_match: float = 0.3
5
    entity_recall: float = 0.25
6
    tool_accuracy: float = 0.25
7
    factuality: float = 0.2
8

9
# 不同场景的权重
10
WEIGHTS = {
11
    "research": TaskScoreWeights(intent_match=0.2, entity_recall=0.35, tool_accuracy=0.15, factuality=0.3),
12
    "coding": TaskScoreWeights(intent_match=0.3, entity_recall=0.1, tool_accuracy=0.4, factuality=0.2),
13
    "customer_support": TaskScoreWeights(intent_match=0.4, entity_recall=0.2, tool_accuracy=0.2, factuality=0.2),
14
}
15

16
def compute_task_score(result: TaskResult, scenario: str = "research") -> float:
17
    weights = WEIGHTS[scenario]
18
    metrics = evaluate_task_completion(result)
19
    return (
20
        weights.intent_match * metrics["intent_match"]
21
        + weights.entity_recall * metrics["entity_recall"]
22
        + weights.tool_accuracy * metrics["tool_accuracy"]
23
        + weights.factuality * metrics["hallucination_score"]
24
    )

2.4 事实验证（Factuality）检测#

1
class FactualityChecker:
2
    """检查 Agent 回答中的事实准确性"""
3

4
    def __init__(self, knowledge_base):
5
        self.kb = knowledge_base
6

7
    async def check(self, response: str, references: list[str]) -> dict:
8
        """将回答中的每个声明与参考来源对照"""
9
        claims = await self._extract_claims(response)
10
        results = []
11

12
        for claim in claims:
13
            evidence = await self.kb.search(claim, k=3)
14
            is_supported = await self._verify_claim(claim, evidence)
15
            results.append({
16
                "claim": claim,
17
                "supported": is_supported,
18
                "evidence": evidence[:1] if evidence else None,
19
            })
20

21
        supported_count = sum(1 for r in results if r["supported"])
22
        return {
23
            "total_claims": len(results),
24
            "supported": supported_count,
25
            "factuality_score": supported_count / len(results) if results else 0,
26
            "details": results,
27
        }
28

29
    async def _extract_claims(self, text: str) -> list[str]:
30
        """从回答中提取可验证的声明"""
31
        extraction_prompt = f"""从以下文本中提取可验证的事实声明。
32
每个声明应该是独立、可核验的句子。
33

34
文本: {text}
35

36
输出 JSON 列表。"""
37
        response = await llm.complete(extraction_prompt)
38
        return parse_json_list(response)
39

40
    async def _verify_claim(self, claim: str, evidence: list) -> bool:
41
        """判断声明是否有证据支持"""
42
        verification_prompt = f"""判断以下声明是否被证据支持。
43

44
声明: {claim}
45
证据: {evidence}
46

47
回答 "supported" 或 "not_supported"。"""
48
        result = await llm.complete(verification_prompt)
49
        return "supported" in result.lower()

三、工具调用评估#

3.1 工具调用准确率#

1
def evaluate_tool_calls(ground_truth: list, predictions: list) -> dict:
2
    """评估工具调用准确率"""
3
    return {
4
        "precision": len(set(ground_truth) & set(predictions)) / len(set(predictions)),
5
        "recall": len(set(ground_truth) & set(predictions)) / len(set(ground_truth)),
6
        "order_accuracy": ground_truth == predictions,
7
    }

3.2 工具选择评估#

评估项	指标
工具选择正确率	%
参数填充准确率	%
工具调用顺序	是否合理

3.3 工具调用全链路评估#

完整的工具调用评估需要覆盖从意图理解到参数填充的全过程：

1
@dataclass
2
class ToolCallEvaluation:
3
    """工具调用全链路评估"""
4
    # 1. 工具选择是否正确
5
    correct_tool_selected: bool
6
    # 2. 参数是否完整
7
    all_params_filled: bool
8
    # 3. 参数值是否正确
9
    correct_param_values: dict[str, bool]  # param_name -> correct?
10
    # 4. 调用时机是否合理
11
    call_timing_appropriate: bool  # 是否在不该调用时调用了
12
    # 5. 结果处理是否得当
13
    result_utilized: bool  # 工具返回的结果是否被正确利用
14

15
def evaluate_tool_call_chain(
16
    agent_trace: list[dict],
17
    ground_truth: list[dict]
18
) -> dict:
19
    """评估整个工具调用链"""
20
    metrics = {
21
        "tool_selection_accuracy": 0.0,
22
        "param_completeness": 0.0,
23
        "param_accuracy": 0.0,
24
        "ordering_correctness": 0.0,
25
        "unnecessary_calls": 0,
26
    }
27

28
    # 逐步骤对比
29
    for i, (actual, expected) in enumerate(zip(agent_trace, ground_truth)):
30
        if actual.get("tool") == expected.get("tool"):
31
            metrics["tool_selection_accuracy"] += 1
32

33
            # 检查参数
34
            actual_params = actual.get("params", {})
35
            expected_params = expected.get("params", {})
36

37
            filled = sum(1 for k in expected_params if k in actual_params)
38
            metrics["param_completeness"] += filled / len(expected_params)
39

40
            correct = sum(
41
                1 for k in expected_params
42
                if actual_params.get(k) == expected_params[k]
43
            )
44
            metrics["param_accuracy"] += correct / len(expected_params)
45

46
    n = len(ground_truth)
47
    metrics["tool_selection_accuracy"] /= n
48
    metrics["param_completeness"] /= n
49
    metrics["param_accuracy"] /= n
50

51
    # 检查多余的调用
52
    metrics["unnecessary_calls"] = max(0, len(agent_trace) - len(ground_truth))
53

54
    return metrics

3.4 工具调用常见问题分类#

问题类型	表现	根因
错误工具选择	搜索时用了计算器	Prompt 中工具描述不清
参数缺失	搜索时不传 query 参数	参数提取逻辑有缺陷
参数值幻觉	查天气时城市名不存在	LLM 编造了不存在的值
不必要调用	简单问答也调用搜索	缺乏”已知信息”判断
忽略返回结果	工具返回了结果但没用	上下文窗口管理不佳
循环调用	同一工具用相同参数反复调	终止条件缺失

四、成本效率评估#

4.1 Token 成本#

1
@dataclass
2
class CostMetrics:
3
    prompt_tokens: int
4
    completion_tokens: int
5
    total_tokens: int
6
    latency_ms: int
7
    cost_usd: float
8

9
def calculate_cost(result: TaskResult) -> CostMetrics:
10
    """计算任务成本"""
11
    return CostMetrics(
12
        prompt_tokens=result.prompt_tokens,
13
        completion_tokens=result.completion_tokens,
14
        total_tokens=result.total_tokens,
15
        latency_ms=result.latency_ms,
16
        cost_usd=calculate_cost_usd(result.total_tokens)
17
    )

4.2 成本效率公式#

$\text{Cost Efficiency} = \frac{\text{Task Quality Score}}{\text{Cost in USD}}$

4.3 详细成本归因分析#

一次 Agent 任务的成本由多个环节构成，需要分别追踪：

1
from datetime import datetime
2

3
@dataclass
4
class CostRecord:
5
    """单次调用的成本记录"""
6
    timestamp: datetime
7
    agent_name: str
8
    task_type: str
9
    model: str
10
    prompt_tokens: int
11
    completion_tokens: int
12
    latency_ms: float
13
    cost_usd: float
14
    success: bool
15

16
class CostTracker:
17
    """成本追踪器"""
18

19
    def __init__(self):
20
        self.records: list[CostRecord] = []
21

22
    def record(self, **kwargs):
23
        self.records.append(CostRecord(timestamp=datetime.now(), **kwargs))
24

25
    def summary(self, group_by: str = "agent_name") -> dict:
26
        """按维度汇总成本"""
27
        groups = {}
28
        for r in self.records:
29
            key = getattr(r, group_by)
30
            if key not in groups:
31
                groups[key] = {"total_cost": 0, "total_tokens": 0, "count": 0, "success": 0}
32
            groups[key]["total_cost"] += r.cost_usd
33
            groups[key]["total_tokens"] += r.prompt_tokens + r.completion_tokens
34
            groups[key]["count"] += 1
35
            groups[key]["success"] += 1 if r.success else 0
36
        return groups
37

38
    def cost_per_success(self) -> float:
39
        """计算每次成功任务的平均成本"""
40
        successful = [r for r in self.records if r.success]
41
        if not successful:
42
            return float("inf")
43
        return sum(r.cost_usd for r in successful) / len(successful)

4.4 多模型成本对比#

不同底层模型对 Agent 成本的影响巨大：

1
# 常见模型定价（2026年初参考价格，单位: USD / 1M tokens）
2
MODEL_PRICING = {
3
    "gpt-4o": {"input": 2.50, "output": 10.00},
4
    "gpt-4o-mini": {"input": 0.15, "output": 0.60},
5
    "claude-sonnet-4": {"input": 3.00, "output": 15.00},
6
    "claude-haiku-3.5": {"input": 0.80, "output": 4.00},
7
    "deepseek-chat": {"input": 0.14, "output": 0.28},
8
    "deepseek-reasoner": {"input": 0.55, "output": 2.19},
9
    "gemini-2.0-flash": {"input": 0.10, "output": 0.40},
10
    "gemini-2.5-pro": {"input": 1.25, "output": 10.00},
11
}
12

13
def estimate_monthly_cost(
14
    daily_requests: int,
15
    avg_prompt_tokens: int = 2000,
16
    avg_completion_tokens: int = 500,
17
    avg_tool_calls_per_request: int = 3,
18
    model: str = "gpt-4o",
19
) -> dict:
20
    """估算月度成本"""
21
    pricing = MODEL_PRICING[model]
22

23
    # 每次 LLM 调用的成本
24
    cost_per_call = (
25
        avg_prompt_tokens * pricing["input"] / 1_000_000
26
        + avg_completion_tokens * pricing["output"] / 1_000_000
27
    )
28

29
    # 每次请求的总 LLM 调用次数 = 初始调用 + 工具调用次数 * 2（调用+结果处理） + 最终汇总
30
    calls_per_request = 1 + avg_tool_calls_per_request * 2 + 1
31

32
    daily_cost = daily_requests * calls_per_request * cost_per_call
33
    monthly_cost = daily_cost * 30
34

35
    return {
36
        "model": model,
37
        "cost_per_call": cost_per_call,
38
        "calls_per_request": calls_per_request,
39
        "daily_cost_usd": daily_cost,
40
        "monthly_cost_usd": monthly_cost,
41
    }

五、Agent Benchmark#

5.1 常用 Benchmark#

Benchmark	评估内容	适用场景	数据规模
GAIA	真实世界任务	通用 Agent	466 个任务
AgentBench	多维度 Agent 能力	综合评估	8 个子任务
WebArena	网页操作	Web Agent	812 个任务
MMLU	多学科知识	问答 Agent	14000+ 题
HotpotQA	多跳推理	推理 Agent	113000+ 问题
API-Bank	工具使用	Tool Agent	53 个 API
TAU-Bench	航空/零售任务	实际任务	对话式
HumanEval	代码生成	编码 Agent	164 个问题
SWE-bench	真实软件工程	编码 Agent	2294 个任务

5.2 Benchmark 详细解读#

flowchart TB subgraph 通用能力["通用能力 Benchmark"] GAIA["GAIA 真实世界推理任务"] AgentBench["AgentBench 8个维度综合评估"] end subgraph 工具使用["工具使用 Benchmark"] APIBank["API-Bank API 调用能力"] WebArena["WebArena 网页操作"] TAU["TAU-Bench 实际业务场景"] end subgraph 专业能力["专业能力 Benchmark"] HumanEval["HumanEval 代码生成"] SWEBench["SWE-bench 软件工程"] HotpotQA["HotpotQA 多跳推理"] end

5.3 AgentBench 评估实战#

AgentBench 是目前最全面的 Agent 评估套件之一，涵盖 8 个子任务：

1
class AgentBenchRunner:
2
    """AgentBench 评估运行器"""
3

4
    TASKS = [
5
        "os",           # 操作系统操作
6
        "webshop",      # 网购任务
7
        "web_browsing", # 网页浏览
8
        "digital_card", # 数字卡牌游戏
9
        "lateral_thinking", # 侧向思维谜题
10
        "householding", # 家务任务
11
        "textcraft",    # 文字冒险
12
        "mind2web",     # 网页任务执行
13
    ]
14

15
    async def evaluate_agent(self, agent, tasks: list[str] | None = None) -> dict:
16
        tasks = tasks or self.TASKS
17
        results = {}
18

19
        for task in tasks:
20
            task_env = self._create_env(task)
21
            score = 0
22
            total = 0
23

24
            for episode in task_env.episodes:
25
                obs = task_env.reset(episode)
26
                done = False
27
                steps = 0
28

29
                while not done and steps < task_env.max_steps:
30
                    action = await agent.act(obs, task_env.available_actions)
31
                    obs, reward, done, info = task_env.step(action)
32
                    score += reward
33
                    steps += 1
34

35
                total += 1
36

37
            results[task] = {
38
                "score": score,
39
                "total_episodes": total,
40
                "average_score": score / total if total > 0 else 0,
41
            }
42

43
        return results

5.4 WebArena：Web Agent 评估#

WebArena 专注于评估 Agent 在真实网页环境中的操作能力：

1
class WebArenaEvaluator:
2
    """WebArena 评估器"""
3

4
    async def evaluate(self, agent, test_cases: list[dict]) -> dict:
5
        results = {
6
            "total": len(test_cases),
7
            "success": 0,
8
            "partial_success": 0,
9
            "failure": 0,
10
            "avg_steps": 0,
11
        }
12

13
        for case in test_cases:
14
            # 启动浏览器环境
15
            env = WebEnvironment(
16
                start_url=case["start_url"],
17
                intent=case["intent"],
18
                target_url=case.get("target_url"),
19
            )
20

21
            steps = 0
22
            done = False
23

24
            while not done and steps < 30:
25
                # 获取页面状态
26
                page_state = env.get_state()
27

28
                # Agent 决策
29
                action = await agent.decide(page_state, case["intent"])
30

31
                # 执行动作
32
                env.execute(action)
33
                steps += 1
34

35
                # 检查是否完成
36
                if env.check_completion(case["eval_criteria"]):
37
                    results["success"] += 1
38
                    done = True
39
                elif steps >= 30:
40
                    # 超时，检查部分完成
41
                    if env.check_partial_completion(case["eval_criteria"]):
42
                        results["partial_success"] += 1
43
                    else:
44
                        results["failure"] += 1
45

46
            results["avg_steps"] += steps
47

48
        results["avg_steps"] /= results["total"]
49
        results["success_rate"] = results["success"] / results["total"]
50
        return results

5.5 AgentEval 框架#

1
from agenteval import AgentEvaluator
2

3
evaluator = AgentEvaluator(
4
    tasks=load_benchmark("GAIA"),
5
    metrics=["task_completion", "tool_usage", "cost"]
6
)
7

8
results = evaluator.evaluate(your_agent)
9
print(f"Overall Score: {results.overall_score}")

六、A/B 测试框架#

6.1 Agent 的 A/B 测试设计#

Agent 系统的迭代优化需要科学的 A/B 测试。与传统的 Web A/B 测试不同，Agent 的输出具有不确定性，需要特殊的实验设计：

flowchart LR A["用户请求"] --> B{"流量分配 50/50"} B -->|"Group A"| C["Agent v1 当前版本"] B -->|"Group B"| D["Agent v2 新版本"] C --> E["收集指标"] D --> E E --> F["统计显著性检验"] F --> G["决策：是否发布"]

6.2 A/B 测试引擎实现#

1
import hashlib
2
from dataclasses import dataclass
3

4
@dataclass
5
class ABTestConfig:
6
    test_name: str
7
    variants: dict[str, float]  # variant_name -> traffic_ratio
8
    metrics: list[str]
9
    min_sample_size: int = 1000
10
    significance_level: float = 0.05
11

12
class ABTestEngine:
13
    """Agent A/B 测试引擎"""
14

15
    def __init__(self):
16
        self.results: dict[str, list[dict]] = {}
17
        self.active_tests: dict[str, ABTestConfig] = {}
18

19
    def register(self, config: ABTestConfig):
20
        self.active_tests[config.test_name] = config
21
        self.results[config.test_name] = {v: [] for v in config.variants}
22

23
    def assign_variant(self, test_name: str, user_id: str) -> str:
24
        """根据用户 ID 确定性分配变体"""
25
        config = self.active_tests[test_name]
26
        hash_val = int(hashlib.md5(f"{test_name}:{user_id}".encode()).hexdigest(), 16)
27
        bucket = (hash_val % 100) / 100
28

29
        cumulative = 0
30
        for variant, ratio in config.variants.items():
31
            cumulative += ratio
32
            if bucket <= cumulative:
33
                return variant
34

35
        return list(config.variants.keys())[-1]
36

37
    def record_result(self, test_name: str, variant: str, metrics: dict):
38
        """记录一次实验结果"""
39
        self.results[test_name][variant].append(metrics)
40

41
    def analyze(self, test_name: str) -> dict:
42
        """分析实验结果"""
43
        config = self.active_tests[test_name]
44
        report = {}
45

46
        for metric in config.metrics:
47
            variant_stats = {}
48
            for variant, data in self.results[test_name].items():
49
                values = [d[metric] for d in data if metric in d]
50
                variant_stats[variant] = {
51
                    "mean": sum(values) / len(values) if values else 0,
52
                    "std": self._std(values),
53
                    "n": len(values),
54
                }
55

56
            # t-test 检验显著性
57
            variants = list(variant_stats.keys())
58
            if len(variants) == 2:
59
                is_significant = self._t_test(
60
                    variant_stats[variants[0]],
61
                    variant_stats[variants[1]],
62
                    config.significance_level,
63
                )
64
            else:
65
                is_significant = False
66

67
            report[metric] = {
68
                "variant_stats": variant_stats,
69
                "is_significant": is_significant,
70
            }
71

72
        return report
73

74
    def _std(self, values: list[float]) -> float:
75
        if len(values) < 2:
76
            return 0
77
        mean = sum(values) / len(values)
78
        return (sum((v - mean) ** 2 for v in values) / (len(values) - 1)) ** 0.5
79

80
    def _t_test(self, a: dict, b: dict, alpha: float) -> bool:
81
        """简化的 t 检验"""
82
        from scipy import stats
83
        if a["n"] < 30 or b["n"] < 30:
84
            return False
85
        # 实际实现中使用 scipy.stats.ttest_ind 进行显著性检验
86
        return True  # 简化示例，生产环境使用完整的 t 检验

6.3 Agent A/B 测试的注意事项#

注意事项	说明
最小样本量	每个变体至少 1000 个样本
新用户优先	避免同一用户体验不同版本导致困惑
时间均衡	不同时段流量特征不同，需均匀分配
指标选择	同时跟踪质量指标和成本指标
梯度发布	显著胜出后逐步增加流量，而非一刀切

七、实战：构建评估系统#

7.1 评估流程#

graph TB A["收集用户反馈"] --> B["自动化指标计算"] B --> C["LLM-as-Judge"] C --> D["综合评分"] D --> E["生成报告"]

7.2 LLM-as-Judge#

1
async def llm_judge评估(response: str, criteria: list[str]) -> float:
2
    """用更强 LLM 评估 Agent 输出"""
3
    judge_prompt = f"""
4
    评估以下 Agent 响应：
5

6
    响应：{response}
7

8
    评估标准：
9
    {chr(10).join(criteria)}
10

11
    给出 0-10 的评分和简要理由。
12
    """
13
    result = await judge_llm.complete(judge_prompt)
14
    return parse_score(result)

7.3 LLM-as-Judge 的高级实现#

简单的 LLM 评分容易不稳定。以下是更健壮的实现方案：

1
class RobustLLMJudge:
2
    """健壮的 LLM-as-Judge 评估器"""
3

4
    def __init__(self, judge_model: str = "claude-opus-4"):
5
        self.judge_model = judge_model
6
        self.calibration_samples = []  # 标定样本
7

8
    async def judge(
9
        self,
10
        query: str,
11
        response: str,
12
        reference: str | None = None,
13
        rubric: list[str] | None = None,
14
    ) -> dict:
15
        """评估单条 Agent 响应"""
16
        rubric_text = "\n".join(f"- {r}" for r in (rubric or self._default_rubric()))
17

18
        prompt = f"""你是一个专业的 Agent 输出评估专家。请严格按照评分标准评估。
19

20
用户问题: {query}
21

22
Agent 回答: {response}
23
{"参考答案: " + reference if reference else ""}
24

25
评分标准:
26
{rubric_text}
27

28
请以 JSON 格式输出:
29
{{
30
    "scores": {{
31
        "relevance": <0-10>,
32
        "accuracy": <0-10>,
33
        "completeness": <0-10>,
34
        "clarity": <0-10>,
35
        "safety": <0-10>
36
    }},
37
    "overall": <0-10>,
38
    "reasoning": "<简要说明评分理由>",
39
    "improvement_suggestions": ["<建议1>", "<建议2>"]
40
}}"""
41

42
        result = await llm.complete(prompt, model=self.judge_model)
43
        parsed = parse_json(result)
44

45
        return {
46
            "scores": parsed.get("scores", {}),
47
            "overall": parsed.get("overall", 0),
48
            "reasoning": parsed.get("reasoning", ""),
49
            "suggestions": parsed.get("improvement_suggestions", []),
50
        }
51

52
    async def judge_pairwise(
53
        self,
54
        query: str,
55
        response_a: str,
56
        response_b: str,
57
    ) -> dict:
58
        """成对比较评估：减少 LLM 评分的不稳定性"""
59
        prompt = f"""比较以下两个 Agent 对同一问题的回答，判断哪个更好。
60

61
问题: {query}
62

63
回答 A: {response_a}
64

65
回答 B: {response_b}
66

67
输出 JSON:
68
{{
69
    "winner": "A" 或 "B" 或 "tie",
70
    "confidence": <0.0-1.0>,
71
    "reasoning": "<简要说明>"
72
}}"""
73

74
        result = await llm.complete(prompt, model=self.judge_model)
75
        return parse_json(result)
76

77
    async def batch_judge(
78
        self,
79
        queries_and_responses: list[tuple[str, str]],
80
        reference_answers: list[str] | None = None,
81
    ) -> list[dict]:
82
        """批量评估，自动计算统计信息"""
83
        results = []
84
        for i, (query, response) in enumerate(queries_and_responses):
85
            ref = reference_answers[i] if reference_answers else None
86
            result = await self.judge(query, response, reference=ref)
87
            results.append(result)
88

89
        # 汇总统计
90
        overall_scores = [r["overall"] for r in results]
91
        return {
92
            "individual_results": results,
93
            "summary": {
94
                "mean_score": sum(overall_scores) / len(overall_scores),
95
                "min_score": min(overall_scores),
96
                "max_score": max(overall_scores),
97
                "score_distribution": self._compute_distribution(overall_scores),
98
            }
99
        }
100

101
    def _default_rubric(self) -> list[str]:
102
        return [
103
            "相关性: 回答是否切题",
104
            "准确性: 事实是否正确",
105
            "完整性: 是否覆盖了所有要点",
106
            "清晰度: 表达是否清晰易懂",
107
            "安全性: 是否包含有害内容",
108
        ]

7.4 自动化评估 Pipeline#

将所有评估手段整合为一个自动化 Pipeline：

1
class EvaluationPipeline:
2
    """自动化评估流水线"""
3

4
    def __init__(self, config: dict):
5
        self.judge = RobustLLMJudge(config.get("judge_model"))
6
        self.cost_tracker = CostTracker()
7
        self.benchmarks = config.get("benchmarks", [])
8

9
    async def evaluate(self, agent, test_set: list[dict]) -> dict:
10
        """运行完整评估"""
11
        results = {
12
            "task_metrics": [],
13
            "tool_metrics": [],
14
            "cost_metrics": [],
15
            "judge_scores": [],
16
        }
17

18
        for test_case in test_set:
19
            # 运行 Agent
20
            agent_result = await agent.run(test_case["query"])
21

22
            # 1. 任务完成指标
23
            task_metrics = evaluate_task_completion(agent_result)
24
            results["task_metrics"].append(task_metrics)
25

26
            # 2. 工具调用指标
27
            tool_metrics = evaluate_tool_call_chain(
28
                agent_result.trace,
29
                test_case.get("expected_tools", [])
30
            )
31
            results["tool_metrics"].append(tool_metrics)
32

33
            # 3. 成本指标
34
            cost = calculate_cost(agent_result)
35
            results["cost_metrics"].append(cost)
36

37
            # 4. LLM-as-Judge
38
            judge_result = await self.judge.judge(
39
                query=test_case["query"],
40
                response=agent_result.response,
41
                reference=test_case.get("reference_answer"),
42
            )
43
            results["judge_scores"].append(judge_result)
44

45
        # 汇总报告
46
        return self._generate_report(results)
47

48
    def _generate_report(self, results: dict) -> dict:
49
        """生成评估报告"""
50
        task_scores = [m.get("intent_match", 0) for m in results["task_metrics"]]
51
        judge_scores = [r["overall"] for r in results["judge_scores"]]
52
        costs = [c.cost_usd for c in results["cost_metrics"]]
53

54
        return {
55
            "overall_score": sum(judge_scores) / len(judge_scores),
56
            "task_completion_rate": sum(1 for s in task_scores if s >= 0.8) / len(task_scores),
57
            "avg_cost_per_task": sum(costs) / len(costs),
58
            "cost_efficiency": (sum(judge_scores) / len(judge_scores)) / (sum(costs) / len(costs)),
59
            "details": results,
60
        }

八、评估框架横向对比#

8.1 开源评估框架对比#

框架	语言	特点	支持的 Benchmark
AgentBench	Python	最全面的多维度评估	8 个内置子任务
WebArena	Python	真实网页环境测试	812 个网页操作任务
AgentEval	Python	轻量级，易扩展	自定义
Promptfoo	TS/JS	Prompt 级别的对比评估	自定义 + 内置
LangSmith Eval	Python	与 LangChain 深度集成	自定义
AutoEval	Python	自动生成评估用例	自定义

8.2 选型建议#

flowchart TD A["选择评估框架"] --> B{"主要评估什么？"} B -->|"通用 Agent 能力"| C["AgentBench"] B -->|"Web Agent"| D["WebArena"] B -->|"Prompt 质量"| E["Promptfoo"] B -->|"LangChain 项目"| F["LangSmith Eval"] B -->|"自定义场景"| G{"需要自动生成用例？"} G -->|"是"| H["AutoEval"] G -->|"否"| I["AgentEval"]

九、定量评估指标汇总#

9.1 指标全景表#

指标类别	指标名称	计算方式	理想值
任务完成	Task Completion Rate	成功任务数 / 总任务数	> 0.85
任务完成	Intent Match Score	意图匹配分数 (0-1)	> 0.9
任务完成	Partial Completion	部分完成率	< 0.1
工具使用	Tool Accuracy	正确工具调用 / 总调用	> 0.9
工具使用	Param Completeness	必填参数填充率	> 0.95
工具使用	Unnecessary Calls	多余调用次数	< 2
质量评估	Factuality Score	有据可查声明比例	> 0.9
质量评估	LLM Judge Score	LLM 评估综合分	> 7.0/10
质量评估	Hallucination Rate	幻觉声明比例	< 0.05
效率指标	Avg Latency (ms)	平均响应延迟	< 3000
效率指标	Avg Token/Task	每任务平均 Token 消耗	场景相关
效率指标	Cost/Success ($0)	每成功任务成本	场景相关
安全性	Injection Block Rate	注入攻击拦截率	> 0.95
安全性	Data Leak Rate	敏感数据泄露率	= 0

9.2 评估报告模板#

1
class EvaluationReport:
2
    """评估报告生成器"""
3

4
    def generate(self, results: dict) -> str:
5
        report = f"""
6
# Agent 评估报告
7

8
## 概要
9
- 评估时间: {datetime.now().isoformat()}
10
- 测试用例数: {results['total_cases']}
11
- 整体评分: {results['overall_score']:.2f} / 10
12

13
## 任务完成
14
| 指标 | 值 | 目标 | 状态 |
15
|------|-----|------|------|
16
| 完成率 | {results['completion_rate']:.1%} | > 85% | {'' if results['completion_rate'] > 0.85 else ''} |
17
| 意图匹配 | {results['intent_match']:.2f} | > 0.9 | {'' if results['intent_match'] > 0.9 else ''} |
18

19
## 工具使用
20
| 指标 | 值 | 目标 | 状态 |
21
|------|-----|------|------|
22
| 准确率 | {results['tool_accuracy']:.1%} | > 90% | {'' if results['tool_accuracy'] > 0.9 else ''} |
23
| 参数完整 | {results['param_completeness']:.1%} | > 95% | {'' if results['param_completeness'] > 0.95 else ''} |
24

25
## 成本效率
26
| 指标 | 值 | 目标 | 状态 |
27
|------|-----|------|------|
28
| 平均延迟 | {results['avg_latency_ms']:.0f}ms | < 3000ms | {'' if results['avg_latency_ms'] < 3000 else ''} |
29
| 每任务成本 | ${results['cost_per_task']:.4f} | < $0.10 | {'' if results['cost_per_task'] < 0.1 else ''} |
30
"""
31
        return report