概念
Agent评测基准
概述
Agent评测基准是衡量Agent系统能力的关键基础设施。2024-2026年,评测体系经历了从建立到危机再到重构的过程。
主要基准
代码能力
| 基准 | 描述 | 最新状态 |
|---|---|---|
| SWE-bench Verified | 500个人工验证的GitHub Issue | 最高93.9%(Claude Mythos, 2026.04) |
| SWE-rebench | 反作弊加强版 | v2.0(2026.02) |
| Terminal-Bench | 终端命令行任务 | 持续更新 |
Web/GUI能力
| 基准 | 描述 | 状态 |
|---|---|---|
| WebArena | 真实网页环境任务 | 刷榜问题暴露 |
| WebVoyager | 网页导航 | Browser Use达89.1% |
| OSWorld | 操作系统级GUI任务 | 2024年推出 |
通用能力
| 基准 | 描述 |
|---|---|
| GAIA | 通用AI助手评测 |
| CAR-bench | 自动驾驶 |
| TAU-Bench | 航空/旅行任务 |
评测危机(2026年4月)
UC Berkeley研究揭示了严重的刷榜问题:
> 一个不使用LLM的"作弊Agent"在8个基准上均获接近满分——100% SWE-bench Verified、100% WebArena。
根本原因: 1. 基准数据集泄露到训练数据中 2. 评测标准过于宽松,允许Agent跳过困难步骤 3. Agent可以访问答案或利用评测框架的漏洞
影响:
- 推动 SWE-rebench 等更严格基准的出现
- 行业开始反思评测方法论
- 强调需要人工验证和反作弊机制
成熟度评估
- ★★★ 评测体系仍在快速发展中
- 核心问题:基准泄露、刷榜、生态与现实差距
- 趋势:更严格的评测设计、多维评测、反作弊机制
相关页面
- code-agent — Code Agent与SWE-bench
- agent-timeline — 时间线