GitHub 高星项目/TIGER-AI-Lab/ClawBench
TIGER-AI-Lab/

浏览器 AI 智能体基准测试

随着“计算机使用(Computer Use)”和浏览器自动化智能体的爆发,如何客观评估这些 AI 的能力成了一个难题。这个项目就是为了解决这个痛点,它提供了一个开源的浏览器智能体基准测试。 测试集包含了 144 个真实网站上的 153 个日常在线任务。为了保证评估的准确性,它采用了 5 层记录、DOM 匹配以及 LLM 裁判相结合的评测机制。有趣的是,目前最高得分只有 33.3%,这说明现阶段的浏览器智能体在处理复杂真实网页时,还有很长的路要走。对于做 Agent 研发的团队来说,这是一个非常有价值的测试工具。

Python高潜项目潜龙编辑甄选
★ Stars
319
GitHub stars
⑂ Forks
20
Forked repos
⊙ Rank
No. 9
Editor rank
Activity
活跃
发布于 2026-05-22T21:12:01.000Z
编辑评介README快速上手Releases
潜龙评分
4.6/ 5.0
代码质量4.7
文档完善4.5
社区活跃4.4
上手难度4.2

浏览器 AI 智能体基准测试 最值得关注的地方,是它围绕真实开发场景提供了清晰的工程入口。随着“计算机使用(Computer Use)”和浏览器自动化智能体的爆发,如何客观评估这些 AI 的能力成了一个难题。这个项目就是为了解决这个痛点,它提供了一个开源的浏览器智能体基准测试。 测试集包含了 144 个真实网站上的 153 个日常在线任务。为了保证评估的准确性,它采用了 5 层记录、DOM 匹配以及 LLM 裁判相结合的评测机制。有趣的是,目前最...

优点
+主题明确,便于快速判断适用场景
+社区关注度高,持续维护概率更大
+可作为同类技术选型的参考样本
不足
-具体成熟度仍需结合 README 与 issue 验证
-生产接入前需要自行评估许可与维护节奏

适用场景

如果你正在评估 高潜项目 方向,这个项目适合放入候选清单。它的 Star、Fork 与主题信息能够帮助你快速判断社区热度,再结合官方仓库文档进行技术验证。

潜龙 QianLong · 中文 AI 内容与工具平台