OpenAI 宣布推出 AI Agent 评测基准 PaperBench

2025 年 4 月 3 日

OpenAI 推出 PaperBench 基准，用于评估 AI 复现前沿 AI 研究的能力。智能体需复现 20 篇 ICML 2024 论文，最佳模型 Claude 3.5 Sonnet 结合开源框架平均得分为 21.0%，尚未超越人类水平。

财联社/36Kr/界面/鸟哥笔记

品玩

开源中国

展开全部报道

专业版功能

体验专业版特色功能，拓展更丰富、更全面的相关内容。