← Wiki
概念

Agent评测基准

概述

Agent评测基准是衡量Agent系统能力的关键基础设施。2024-2026年,评测体系经历了从建立到危机再到重构的过程。

主要基准

代码能力

基准描述最新状态
SWE-bench Verified500个人工验证的GitHub Issue最高93.9%(Claude Mythos, 2026.04)
SWE-rebench反作弊加强版v2.0(2026.02)
Terminal-Bench终端命令行任务持续更新

Web/GUI能力

基准描述状态
WebArena真实网页环境任务刷榜问题暴露
WebVoyager网页导航Browser Use达89.1%
OSWorld操作系统级GUI任务2024年推出

通用能力

基准描述
GAIA通用AI助手评测
CAR-bench自动驾驶
TAU-Bench航空/旅行任务

评测危机(2026年4月)

UC Berkeley研究揭示了严重的刷榜问题

> 一个不使用LLM的"作弊Agent"在8个基准上均获接近满分——100% SWE-bench Verified、100% WebArena。

根本原因: 1. 基准数据集泄露到训练数据中 2. 评测标准过于宽松,允许Agent跳过困难步骤 3. Agent可以访问答案或利用评测框架的漏洞

影响

成熟度评估

相关页面