← Wiki

概念 2026/6/6

#code-generation #benchmark

Code Agent：最成熟的Agent赛道

概述

Code Agent是2024-2026年Agent技术中发展最快、最成熟的领域。从研究工具到生产工具的跃迁已完成，SWE-bench Verified最高分达93.9%（2026年4月）。

主要Code Agent工具

SWE-Agent（2024）

来源：Princeton NLP
核心：自定义Agent-Computer Interface（ACI），让LLM浏览仓库、编辑文件、运行测试
定位：学术研究驱动的Code Agent框架

OpenHands（原OpenDevin，2024）

来源：开源社区
核心：端到端软件开发Agent平台
能力：代码编写、命令执行、网页浏览、文件编辑
里程碑：2026年1月在SWE-bench Verified上达到SOTA
特色：模块化架构、支持多种LLM后端

Claude Code（2025）

来源：Anthropic
形态：终端中的Agentic Coding工具
能力：理解整个代码库、编辑文件、运行命令、Git工作流、mcp\|MCP集成
定位：CLI-first的AI编程搭档

OpenAI Codex（2025）

Codex Cloud：云端沙箱中的AI编程Agent，可并行处理多个任务
Codex CLI：开源轻量终端Agent，支持o3/o4-mini等推理模型
GPT-5-Codex（2025.09）：GPT-5的代码优化版本

其他重要工具

Cursor：AI原生IDE，深度Agent模式
Windsurf/Cline：VSCode插件形态
Augment Code：企业级Code Agent

SWE-bench评测家族

基准	描述	状态
SWE-bench Lite	300个精选Issue	早期基准
SWE-bench Verified	500个人工验证Issue	最高93.9%（2026.04）
SWE-rebench	反作弊加强版	v2.0（2026.02）

评测危机（2026.04）

UC Berkeley研究揭示严重刷榜问题：不使用LLM的"作弊Agent"在8个基准上获接近满分，推动evaluation-benchmarks\|评测基准的根本性革新。

为什么Code Agent最先成熟？

1. 环境可控 — 代码有明确的测试（pass/fail），反馈信号清晰 2. 工具链成熟 — Git、终端、IDE等开发工具已是标准基础设施 3. 数据丰富 — GitHub提供了海量训练数据 4. 商业需求强 — 软件开发是高价值场景，投资回报明确

相关页面

agent-timeline — 时间线
evaluation-benchmarks — 评测基准
mcp — MCP工具连接协议