概念
Code Agent:最成熟的Agent赛道
概述
Code Agent是2024-2026年Agent技术中发展最快、最成熟的领域。从研究工具到生产工具的跃迁已完成,SWE-bench Verified最高分达93.9%(2026年4月)。
主要Code Agent工具
SWE-Agent(2024)
- 来源:Princeton NLP
- 核心:自定义Agent-Computer Interface(ACI),让LLM浏览仓库、编辑文件、运行测试
- 定位:学术研究驱动的Code Agent框架
OpenHands(原OpenDevin,2024)
- 来源:开源社区
- 核心:端到端软件开发Agent平台
- 能力:代码编写、命令执行、网页浏览、文件编辑
- 里程碑:2026年1月在SWE-bench Verified上达到SOTA
- 特色:模块化架构、支持多种LLM后端
Claude Code(2025)
- 来源:Anthropic
- 形态:终端中的Agentic Coding工具
- 能力:理解整个代码库、编辑文件、运行命令、Git工作流、mcp\|MCP集成
- 定位:CLI-first的AI编程搭档
OpenAI Codex(2025)
- Codex Cloud:云端沙箱中的AI编程Agent,可并行处理多个任务
- Codex CLI:开源轻量终端Agent,支持o3/o4-mini等推理模型
- GPT-5-Codex(2025.09):GPT-5的代码优化版本
其他重要工具
- Cursor:AI原生IDE,深度Agent模式
- Windsurf/Cline:VSCode插件形态
- Augment Code:企业级Code Agent
SWE-bench评测家族
| 基准 | 描述 | 状态 |
|---|---|---|
| SWE-bench Lite | 300个精选Issue | 早期基准 |
| SWE-bench Verified | 500个人工验证Issue | 最高93.9%(2026.04) |
| SWE-rebench | 反作弊加强版 | v2.0(2026.02) |
评测危机(2026.04)
UC Berkeley研究揭示严重刷榜问题:不使用LLM的"作弊Agent"在8个基准上获接近满分,推动evaluation-benchmarks\|评测基准的根本性革新。
为什么Code Agent最先成熟?
1. 环境可控 — 代码有明确的测试(pass/fail),反馈信号清晰 2. 工具链成熟 — Git、终端、IDE等开发工具已是标准基础设施 3. 数据丰富 — GitHub提供了海量训练数据 4. 商业需求强 — 软件开发是高价值场景,投资回报明确
相关页面
- agent-timeline — 时间线
- evaluation-benchmarks — 评测基准
- mcp — MCP工具连接协议