back
icon share
  1. 热门话题
  2. 每日早报
  3. 排行榜
  4. AIarrow
  5. 专业版
OpenAI 宣布推出 AI Agent 评测基准 PaperBench4 月 3 日

OpenAI 推出 PaperBench 基准,用于评估 AI 复现前沿 AI 研究的能力。智能体需复现 20 篇 ICML 2024 论文,最佳模型 Claude 3.5 Sonnet 结合开源框架平均得分为 21.0%,尚未超越人类水平。

链接OpenAI 宣布推出 AI Agent 评测基准 PaperBench
财联社 / 36Kr / 界面 / 鸟哥笔记
链接OpenAI 宣布推出 AI Agent 评测基准 PaperBench
品玩
链接OpenAI 开源 AI Agent 评测基准 PaperBench
开源中国
展开展开全部报道
话题追踪话题追踪
2025-10-08
OpenAI 发布战略级 AgentKit 工具套件,推动企业级智能体应用开发
2025-07-18
OpenAI 发布 AI 智能体 ChatGPT Agent
2025-04-17
OpenAI 开源编程智能体 Codex CLI,可在终端运行
2025-04-16
OpenAI 升级《准备框架》,细化 AI 风险分类强化安全措施
2025-04-11
OpenAI 削减了在人工智能模型安全测试上花费的时间和资源
2025-04-03
OpenAI 宣布推出 AI Agent 评测基准 PaperBench
2025-03-04
OpenAI 推出研究机构「联盟」NextGenAI
2025-02-19
OpenAI 推出 SWE-Lancer 基准测试
2025-02-03
OpenAI 计划开发生成式 AI 专用终端,或替代智能手机
2025-01-20
OpenAI 资助 AI 数学基准测试引发公正性质疑
查看更多
企业微信二维码
添加 Readhub 到桌面
1. 点击浏览器分享图标
click share icon
2. 选择添加到主屏幕
add to screen
知道了