← Wiki
概念

Code Agent:最成熟的Agent赛道

概述

Code Agent是2024-2026年Agent技术中发展最快、最成熟的领域。从研究工具到生产工具的跃迁已完成,SWE-bench Verified最高分达93.9%(2026年4月)。

主要Code Agent工具

SWE-Agent(2024)

OpenHands(原OpenDevin,2024)

Claude Code(2025)

OpenAI Codex(2025)

其他重要工具

SWE-bench评测家族

基准描述状态
SWE-bench Lite300个精选Issue早期基准
SWE-bench Verified500个人工验证Issue最高93.9%(2026.04)
SWE-rebench反作弊加强版v2.0(2026.02)

评测危机(2026.04)

UC Berkeley研究揭示严重刷榜问题:不使用LLM的"作弊Agent"在8个基准上获接近满分,推动evaluation-benchmarks\|评测基准的根本性革新。

为什么Code Agent最先成熟?

1. 环境可控 — 代码有明确的测试(pass/fail),反馈信号清晰 2. 工具链成熟 — Git、终端、IDE等开发工具已是标准基础设施 3. 数据丰富 — GitHub提供了海量训练数据 4. 商业需求强 — 软件开发是高价值场景,投资回报明确

相关页面