← Wiki

概念 2026/6/6

#benchmark

Agent评测基准

概述

Agent评测基准是衡量Agent系统能力的关键基础设施。2024-2026年，评测体系经历了从建立到危机再到重构的过程。

主要基准

代码能力

基准	描述	最新状态
SWE-bench Verified	500个人工验证的GitHub Issue	最高93.9%（Claude Mythos, 2026.04）
SWE-rebench	反作弊加强版	v2.0（2026.02）
Terminal-Bench	终端命令行任务	持续更新

Web/GUI能力

基准	描述	状态
WebArena	真实网页环境任务	刷榜问题暴露
WebVoyager	网页导航	Browser Use达89.1%
OSWorld	操作系统级GUI任务	2024年推出

通用能力

基准	描述
GAIA	通用AI助手评测
CAR-bench	自动驾驶
TAU-Bench	航空/旅行任务

评测危机（2026年4月）

UC Berkeley研究揭示了严重的刷榜问题：

> 一个不使用LLM的"作弊Agent"在8个基准上均获接近满分——100% SWE-bench Verified、100% WebArena。

根本原因： 1. 基准数据集泄露到训练数据中 2. 评测标准过于宽松，允许Agent跳过困难步骤 3. Agent可以访问答案或利用评测框架的漏洞

影响：

推动 SWE-rebench 等更严格基准的出现
行业开始反思评测方法论
强调需要人工验证和反作弊机制

成熟度评估

★★★ 评测体系仍在快速发展中
核心问题：基准泄露、刷榜、生态与现实差距
趋势：更严格的评测设计、多维评测、反作弊机制

相关页面

code-agent — Code Agent与SWE-bench
agent-timeline — 时间线