Readhub

OpenAI 开源 BrowseComp，重塑 Agent 浏览器评测

2025 年 4 月 11 日

OpenAI 开源智能体浏览器功能测试基准 BrowseComp，难度极高，GPT-4o 和 GPT-4.5 准确率接近于零，带浏览器功能的 GPT-4o 也仅 1.9%，而新发布的 Deep Research 准确率达 51.5%，在搜索、整合与校准方面表现出色。

OpenAI 开源浏览智能体评测基准 BrowseComp

界面

OpenAI 开源 BrowseComp，重塑 Agent 浏览器评测

36Kr

刚刚，OpenAI 开源 BrowseComp，重塑 Agent 浏览器评测

站长之家

展开全部报道

话题追踪

2026-02-13

OpenAI 推出首款搭载英伟达竞争对手 Cerebras 芯片的 AI 模型

2026-02-06

OpenAI 推出 GPT-5.3-Codex，强化编程与多任务处理能力

2025-12-30

OpenAI 更新手机版 ChatGPT，用户可调节 AI 思考深度

2025-12-19

OpenAI 推出 GPT-5.2-Codex

2025-12-17

OpenAI：面向所有用户在 ChatGPT 中推出全新图像模型及功能

2025-12-12

OpenAI 发布 GPT-5.2 模型：做表格、写 PPT、敲代码等生产力大增

2025-12-08

OpenAI 计划提前发布 GPT-5.2，应对 Gemini 3 的火爆

2025-11-24

OpenAI 宣布将停止 GPT-4o 模型 API 访问

2025-11-10

OpenAI 发布 GPT‑5 Codex Mini 模型：更高效、更低成本

2025-10-24

OpenAI 预告「AI 浏览器」Atlas 未来更新：标签组、广告拦截器等

查看更多

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。

行业标签

订阅

订阅

订阅

订阅

订阅

订阅

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

© 2026 NoCode 无码科技（杭州）有限公司浙ICP备17005035号-6 联系我们加入我们产品介绍

浙公网安备 33010902002965 号浙 B2-20181004

科技新闻，每天 3 分钟