概念
Computer Use Agent
概述
Computer Use Agent让AI能像人类一样操作图形界面(GUI),是Agent从代码/文本领域扩展到整个数字世界的关键技术。
Anthropic Computer Use(2024.10)
- 发布:2024年10月22日,随Claude 3.5 Sonnet推出
- 定位:首个前沿AI模型提供自主计算机操作能力
- 能力:截图识别屏幕 → 移动光标 → 点击按钮 → 输入文本
- API形态:通过Claude API的
computer_use工具调用 - 意义:AI首次能操作GUI界面,打开"数字世界操作"新维度
Browser Use
- 来源:开源项目,入选YC 2025冬季批次
- 能力:AI Agent控制浏览器完成网页任务
- 成绩:WebVoyager基准 89.1% 成功率
- 关联:Manus Agent底层使用Browser Use
- 生态:支持Cursor、Claude Code等编码Agent集成
其他GUI Agent
- OSWorld:操作系统级GUI Agent基准
- UI-TARS(ByteDance):视觉驱动的GUI Agent
- Claude Cowork:Anthropic正在开发的GUI版Agent工具
成熟度
- ★★★★ 技术可行性已证明,但可靠性/安全性仍需改进
- 适合"受监督"的使用场景
- 下一个前沿:GUI交互能力将Agent能力范围从代码扩展到所有数字操作
相关页面
- agent-timeline — 时间线
- mcp — MCP协议