浏览器 AI 智能体基准测试

随着“计算机使用（Computer Use）”和浏览器自动化智能体的爆发，如何客观评估这些 AI 的能力成了一个难题。这个项目就是为了解决这个痛点，它提供了一个开源的浏览器智能体基准测试。测试集包含了 144 个真实网站上的 153 个日常在线任务。为了保证评估的准确性，它采用了 5 层记录、DOM 匹配以及 LLM 裁判相结合的评测机制。有趣的是，目前最高得分只有 33.3%，这说明现阶段的浏览器智能体在处理复杂真实网页时，还有很长的路要走。对于做 Agent 研发的团队来说，这是一个非常有价值的测试工具。

Python高潜项目潜龙编辑甄选

前往 GitHub

★ Stars

319

GitHub stars

⑂ Forks

Forked repos

⊙ Rank

No. 9

Editor rank

Activity

活跃

发布于 2026-05-22T21:12:01.000Z

编辑评介README快速上手Releases

潜龙评分

4.6/ 5.0

代码质量4.7

文档完善4.5

社区活跃4.4

上手难度4.2

浏览器 AI 智能体基准测试最值得关注的地方，是它围绕真实开发场景提供了清晰的工程入口。随着“计算机使用（Computer Use）”和浏览器自动化智能体的爆发，如何客观评估这些 AI 的能力成了一个难题。这个项目就是为了解决这个痛点，它提供了一个开源的浏览器智能体基准测试。测试集包含了 144 个真实网站上的 153 个日常在线任务。为了保证评估的准确性，它采用了 5 层记录、DOM 匹配以及 LLM 裁判相结合的评测机制。有趣的是，目前最...

优点

+主题明确，便于快速判断适用场景

+社区关注度高，持续维护概率更大

+可作为同类技术选型的参考样本

不足

-具体成熟度仍需结合 README 与 issue 验证

-生产接入前需要自行评估许可与维护节奏

适用场景

如果你正在评估高潜项目方向，这个项目适合放入候选清单。它的 Star、Fork 与主题信息能够帮助你快速判断社区热度，再结合官方仓库文档进行技术验证。